如何避免在Pandas中应用独热编码时出现NaN

我正在训练一个机器学习模型来预测我国内的房价。我不确定如何将独热编码应用到我的数据中，所以我从这里复制了代码：将独热编码标签转换回DataFrame。

看起来运行良好，但我的其他标签现在被NaN替代了。在应用独热编码之前，在我应用独热编码之后，这是输出结果

我使用的代码如下：

print(ds.head())categorical_feature_mask = ds.dtypes==objectcategorical_cols = ds.columns[categorical_feature_mask].tolist()labeled_ds = ds[categorical_cols]enc = OneHotEncoder()enc.fit(labeled_ds)onehotlabels = enc.transform(labeled_ds).toarray()new_columns=list()for col, values in zip(labeled_ds.columns, enc.categories_):    new_columns.extend([col + '_' + str(value) for value in values])ds= pd.concat([ds, pd.DataFrame(onehotlabels, columns=new_columns)], axis='columns')names = ['location', 'property_type']ds.drop(names, axis=1, inplace=True)ds.head()

关于可能导致这个问题的任何想法？

回答：

这个问题是由于索引不同导致的。

你的ds可能有不同的索引（不从0开始且不连续），但你的独热编码标签DataFrame是从0开始且连续的。

所以当你进行连接时，由于索引不同，你会得到NaN值。

请检查形状以确认问题是否由于索引不匹配引起的。

解决方法：

pd.concat([ds.reset_index(drop=True), pd.DataFrame(onehotlabels, columns=new_columns)], axis='columns')

或者

（如果你想保持与ds相同的索引）

pd.concat([ds, pd.DataFrame(onehotlabels, columns=new_columns), index=ds.index], axis='columns')

学技术

如何避免在Pandas中应用独热编码时出现NaN

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复