我的问题是关于从数据框列中选择和提取一些特征。这是否会影响机器学习算法的有效性。例如,我正在分析“芝加哥犯罪数据集”。它有一个“发生日期”列,数据形式为:“2018-11-23 05:10:00”。我想做的就是,从这个列中添加一些额外的列,分别表示“年”、“月”、“星期几”、“小时”。
这是否会影响KNN分类器算法的效率?
这是数据集的链接,如果你想查看我所提到的数据集。
“https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2“
回答:
添加新特征总是有助于模型学习。对于日期列,总是建议添加单独的新日期特征。
day
month
day_of_week
year
is_it_weekend
hour
minute
AM_PM
season