Python机器学习中的独热编码错误

我在机器学习中处理分类变量。这是我的数据样本：

age,gender,height,class,label25,m,43,A,035,f,45,B,112,m,36,C,014,f,42,A,0

有两个分类变量：性别和身高。我使用了标签编码技术。

我的代码如下：

import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderdf=pd.read_csv('test.csv')X=df.drop(['label'],1)y=np.array(df['label'])data=X.iloc[:,:].valueslben = LabelEncoder()data[:,1] = lben.fit_transform(data[:,1])data[:,3] = lben.fit_transform(data[:,3])onehotencoder = OneHotEncoder(categorical_features=[1])data = onehotencoder.fit_transform(data).toarray()onehotencoder = OneHotEncoder(categorical_features=[3])data = onehotencoder.fit_transform(data).toarray()print(data.shape)np.savetxt('data.csv',data,fmt='%s')

data.csv文件看起来像这样：

0.0 0.0 1.0 0.0 0.0 1.0 25.0 0.00.0 0.0 0.0 1.0 1.0 0.0 35.0 1.01.0 0.0 0.0 0.0 0.0 1.0 12.0 2.00.0 1.0 0.0 0.0 1.0 0.0 14.0 0.0

我无法理解为什么列会变成这样，即’height’列的值在哪里。此外，data.shape是(4,8)，而不是我期望的(4,7)，即（性别由2列表示，类别由3列表示，’age’和’height’特征）。

回答：

你确定需要使用LabelEncoder+OneHotEncoder吗？有一个更简单的方法（虽然不允许进行高级操作，但到目前为止你似乎只是在处理基础内容）：

import pandas as pdimport numpy as npdf=pd.read_csv('test.csv')X=df.drop(['label'],1)y=np.array(df['label'])data = pd.get_dummies(X)

当前代码的问题在于，在你完成第一次独热编码后：

onehotencoder = OneHotEncoder(categorical_features=[1])data = onehotencoder.fit_transform(data).toarray()

列的位置发生了变化，第三列实际上是原始的height列，而不是标签编码后的class列。所以将第二次编码改为使用第四列，你就能得到你想要的结果。

学技术

Python机器学习中的独热编码错误

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复