如何处理测试数据中某列缺失值时的一热编码问题？

例如，如果我的训练数据在某列中包含分类值(1,2,3,4,5)，那么一热编码将生成5列。但在我的测试数据中，可能只有其中的4个值，即(1,3,4,5)。因此，一热编码只会生成4列。所以，如果我将训练好的权重应用到测试数据上，由于训练和测试数据的列维度不匹配，即dim(4)!=dim(5)，我会得到一个错误。关于如何处理缺失的列值，有什么建议吗？我代码的图片如下所示：

图片

回答：

你可以先合并两个数据框，然后进行get_dummies操作，最后再将它们分开，这样它们就可以拥有完全相同的列数，例如：

# 示例数据框
Xtrain = pd.DataFrame({'x':np.array([4,2,3,5,3,1])})
Xtest = pd.DataFrame({'x':np.array([4,5,1,3])})
# 通过keys合并然后进行get_dummies
temp = pd.get_dummies(pd.concat([Xtrain,Xtest],keys=[0,1]), columns=['x'])
# 从多索引中选择数据并分配它们
Xtrain,Xtest = temp.xs(0),temp.xs(1)
# Xtrain.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 1, 0, 0, 0],
#        [0, 0, 1, 0, 0],
#        [0, 0, 0, 0, 1],
#        [0, 0, 1, 0, 0],
#        [1, 0, 0, 0, 0]], dtype=uint8)
# Xtest.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 0, 0, 0, 1],
#        [1, 0, 0, 0, 0],
#        [0, 0, 1, 0, 0]], dtype=uint8)

不建议采用这种方法。这是一种简单但有很多缺点的技巧。@【隐藏人名】的回答对此有更好的解释。

学技术

如何处理测试数据中某列缺失值时的一热编码问题？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复