如何在机器学习数据预处理中处理日期变量

我有一个数据集，其中包含交易的时间戳，格式为26-09-2017 15:29:32。我需要找出销售的可能相关性和预测（比如使用逻辑回归）。我的问题是：

如何处理日期格式？我应该将其转换为一个数字（就像Excel自动做的那样）吗？我应该将其拆分为更多的变量，如天、月、年、小时、分钟、秒吗？还有其他可能的建议吗？
如果我想添加每年的不同周数，我应该添加像342017（2017年的第34周）这样的变量吗？
对于问题2，我是否也应该对年份的季度做同样的处理？

#         Datetime               Gender        Purchase1    23/09/2015 00:00:00           0             12    23/09/2015 01:00:00           1             03    25/09/2015 02:00:00           1             04    27/09/2015 03:00:00           1             15    28/09/2015 04:00:00           0             0

回答：

一些随机想法：

日期是特征工程的好来源，我认为在模型中使用日期没有一种方法。业务用户的专业知识会很有帮助；是否有可以编码进数据的观察到的趋势？

可能的特征建议包括：

周末与工作日
营业时间和一天中的时间
季节
一年中的周数
月份
年份
月初/月末（发薪日）
季度
距离某个行动事件的天数（距离）
缺失或不完整的数据
等等

这一切都取决于数据集，大多数可能不适用。

一些链接：

http://appliedpredictivemodeling.com/blog/2015/7/28/feature-engineering-versus-feature-extraction

https://www.salford-systems.com/blog/dan-steinberg/using-dates-in-data-mining-models

http://trevorstephens.com/kaggle-titanic-tutorial/r-part-4-feature-engineering/

学技术

如何在机器学习数据预处理中处理日期变量

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复