学习算法的准确性在特征平均后下降

我有一个庞大的数据集需要清理。在这个数据集中，有6列代表从1到10的评分系统。第一列根据吸引力对人进行评分，第二列根据智力评分，等等。

attr1  attr2  attr3  attr4  attr5  attr62      5      6      8      7      25      9      6      9      7      39      8      7      5      8      6     ...                ...

我决定计算这些列的平均值，并将其保存到一个新列中，然后删除这些列，所以现在不是(attr1 – attr6)，而是…

avg_attr56.57.166...

实现这个功能的代码是…

data['avg_attr'] = data[['attr1', 'attr2', 'attr3', 'attr4', 'attr5', 'attr6']].mean(axis=1)# Convert columns to 1-dimensional Series arrayseries = data.columns.to_series()# Attribute data can be dropped because we already have the total mean.data = data.drop(series["attr1":"attr6"], axis=1)

当我这样做时，我期望算法的准确性不会受到太大影响，而且我认为这还有助于使我的数据看起来更整洁。然而，应用此更改后，准确率略有下降，这是为什么呢？是因为我的算法现在对数据的拟合不足了吗？

另外，关于这些属性，有没有什么方法可以提高准确率？

回答：

准确率下降是自然的。你使用的是mean（平均值），而不是correlation（相关性）。在学习算法中，一个属性的值的dependency（依赖性）会影响另一个属性。如果你只是简单地平均所有属性，它如何能学习到一个属性对另一个属性的dependency（依赖性）呢？

另一种删除columns/attributes（列/属性）的方法是通过dimensional reduction（降维）。你需要找到correlation（相关性），并删除那些具有较高correlation（相关性）的属性。

你可以简单地使用seaborn来查看

import seaborn as snssns.heatmap(test_data.corr())

你可以可视化highly correlated attributes（高度相关的属性），并逐一删除。Dimensional Reduction（降维）是减少信息损失的方法之一。我希望这个解释对你有帮助。

学技术

学习算法的准确性在特征平均后下降

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复