从数据框列中提取特征以用于KNN算法

我的问题是关于从数据框列中选择和提取一些特征。这是否会影响机器学习算法的有效性。例如,我正在分析“芝加哥犯罪数据集”。它有一个“发生日期”列,数据形式为:“2018-11-23 05:10:00”。我想做的就是,从这个列中添加一些额外的列,分别表示“年”、“月”、“星期几”、“小时”。

这是否会影响KNN分类器算法的效率?

这是数据集的链接,如果你想查看我所提到的数据集。

https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2


回答:

添加新特征总是有助于模型学习。对于日期列,总是建议添加单独的新日期特征。

day month day_of_week year is_it_weekend hour minute AM_PM season

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注