我有一组关于每天生成的潜在客户的数据样本。潜在客户不过是用户表达是否希望成为我们的合作伙伴的请求。样本数据集如下所示
LEADID,CREATEDATE,STATUS,LEADTYPE810029,24-DEC-17 12.00.00.000000000 AM,open,LeadType1806136,30-DEC-17 12.00.00.000000000 AM,open,LeadType2812134,31-DEC-17 12.00.00.000000000 AM,open,LeadType2806147,31-DEC-17 12.00.00.000000000 AM,open,LeadType1806166,01-JAN-18 12.00.00.000000000 AM,open,LeadType228002,04-MAR-16 12.00.00.000000000 AM,open,LeadType2808156,01-JAN-18 12.00.00.000000000 AM,open,LeadType1808162,01-JAN-18 12.00.00.000000000 AM,open,LeadType2806257,07-JAN-18 12.00.00.000000000 AM,open,LeadType1832091,17-JAN-18 12.00.00.000000000 AM,open,LeadType2838079,17-JAN-18 12.00.00.000000000 AM,open,LeadType166001,26-MAR-16 12.00.00.000000000 AM,open,LeadType170001,28-MAR-16 12.00.00.000000000 AM,open,LeadType2806019,23-DEC-17 12.00.00.000000000 AM,open,LeadType2822064,12-JAN-18 12.00.00.000000000 AM,open,LeadType1834043,14-JAN-18 12.00.00.000000000 AM,open,LeadType2836053,16-JAN-18 12.00.00.000000000 AM,open,LeadType1838119,19-JAN-18 12.00.00.000000000 AM,open,LeadType2
如你所见,潜在客户类型可以是LeadType1或LeadType2,并且每天都会生成这些数据。
支持代码如下。请注意,我对Python和AI只是初学者,但我想要检查这是否证明了机器学习的一个有效用例,以及我的方法应该是什么
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#%matplotlib inlinein_file = 'lead_data.csv'mydf = pd.read_csv(in_file,encoding='latin-1')fig, ax = plt.subplots(figsize=(15,7))#g = mydf.groupby(['R4GSTATE','LEADTYPE']).count()['STATUS'].unstack()g = mydf.groupby(['R4GSTATE','STATUS']).count()['LEADTYPE'].unstack()g.plot(ax=ax)#ax.set_xlabel('R4GSTATE')ax.set_xlabel('R4GSTATE')ax.set_ylabel('潜在客户数量')ax.set_xticks(range(len(g)));ax.set_xticklabels(["%s" % item for item in g.index.tolist()], rotation=90);
基本上,我只是读取了csv文件,整理了数据(我已经清理了原始csv文件)以保留对我有意义的内容。我还按月-年对潜在客户数量进行了分组,以便我可以查看每月历史上生成的潜在客户数量。
我想知道机器学习是否能帮助我根据前几个月的数据预测未来几个月生成的潜在客户数量。
如果答案是肯定的,那么线性回归是否是进一步探索的正确途径
回答:
使用基于时间序列的预测技术。
如果你熟悉统计学,并且愿意花一些时间进行预测,我推荐使用statmodels
包中的ARIMA
模型
快速完成任务的简单选项是使用fbprophet
:https://facebook.github.io/prophet/