机器学习：将多个特征合并为单一特征

我是一名机器学习的初学者。我不明白如何将数据集中的不同特征合并成一个单一特征。

例如，我有一个Python Pandas数据框，包含如下特征的数据集：

movie        unknown action adventure animation fantasy horror romance sci-fiToy Story    0       1      1          0        1       0      0       1              Golden Eye   0       1      0          0        0       0      1       0      Four Rooms   1       0      0          0        0       0      0       0    Get Shorty   0       0      0          1        1       0      1       0Copy Cat     0       0      1          0        0       1      0       0

我想将这些n个特征转换为一个名为“movie_genre”的单一特征。一个解决方案是为每个类型分配一个整数值（unknown = 0, action = 1, adventure = 2 ..等等），并创建如下数据框：

movie       genreToy Story   1,2,4,7Golden Eye  1,6Four Rooms  0Get Shorty  3,4,6Copy Cat    2,5

但在这种情况下，列中的条目将不再是整数/浮点值。这会影响我未来的机器学习步骤，如模型拟合和算法评估吗？

回答：

将它们保持在当前的多特征格式，并对数据进行某种降维技术，可能会更有效。

这与一个经典问题非常相似：我们如何处理分类变量？一个答案是一元编码或虚拟编码，你的原始数据框与此非常相似。在一元编码中，你从一个单一的分类特征开始。使用该特征，你为每个级别创建一列，并为该列分配一个二进制值。编码结果看起来与你开始的非常相似。这种编码方式很流行，许多人发现它非常有效。你的做法更进一步，因为每部电影可以属于多个类型。我不确定逆转这个过程是否是个好主意。

如果特征数量适当且代表数据恰当，拥有更多特征并不总是坏事，只要你有足够的观察数据。如果你最终拥有过多的特征，有很多方法可以减少维度。这个话题上有大量的知识，但一种常见技术是对高维数据集应用主成分分析（PCA），以找到低维表示。

由于你在使用Python，你可能想看看scikit-learn中有什么可用的资源。他们的文档中有几个资源可以在这里和这里找到。

学技术

机器学习：将多个特征合并为单一特征

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复