我有一个数据集,其中包含交易的时间戳,格式为26-09-2017 15:29:32。我需要找出销售的可能相关性和预测(比如使用逻辑回归)。我的问题是:
- 如何处理日期格式?我应该将其转换为一个数字(就像Excel自动做的那样)吗?我应该将其拆分为更多的变量,如天、月、年、小时、分钟、秒吗?还有其他可能的建议吗?
- 如果我想添加每年的不同周数,我应该添加像342017(2017年的第34周)这样的变量吗?
- 对于问题2,我是否也应该对年份的季度做同样的处理?
# Datetime Gender Purchase1 23/09/2015 00:00:00 0 12 23/09/2015 01:00:00 1 03 25/09/2015 02:00:00 1 04 27/09/2015 03:00:00 1 15 28/09/2015 04:00:00 0 0
回答:
一些随机想法:
日期是特征工程的好来源,我认为在模型中使用日期没有一种方法。业务用户的专业知识会很有帮助;是否有可以编码进数据的观察到的趋势?
可能的特征建议包括:
- 周末与工作日
- 营业时间和一天中的时间
- 季节
- 一年中的周数
- 月份
- 年份
- 月初/月末(发薪日)
- 季度
- 距离某个行动事件的天数(距离)
- 缺失或不完整的数据
- 等等
这一切都取决于数据集,大多数可能不适用。
一些链接:
http://appliedpredictivemodeling.com/blog/2015/7/28/feature-engineering-versus-feature-extraction
https://www.salford-systems.com/blog/dan-steinberg/using-dates-in-data-mining-models
http://trevorstephens.com/kaggle-titanic-tutorial/r-part-4-feature-engineering/