例如,如果我的训练数据在某列中包含分类值(1,2,3,4,5),那么一热编码将生成5列。但在我的测试数据中,可能只有其中的4个值,即(1,3,4,5)。因此,一热编码只会生成4列。所以,如果我将训练好的权重应用到测试数据上,由于训练和测试数据的列维度不匹配,即dim(4)!=dim(5),我会得到一个错误。关于如何处理缺失的列值,有什么建议吗?我代码的图片如下所示:
回答:
你可以先合并两个数据框,然后进行get_dummies操作,最后再将它们分开,这样它们就可以拥有完全相同的列数,例如:
# 示例数据框
Xtrain = pd.DataFrame({'x':np.array([4,2,3,5,3,1])})
Xtest = pd.DataFrame({'x':np.array([4,5,1,3])})
# 通过keys合并然后进行get_dummies
temp = pd.get_dummies(pd.concat([Xtrain,Xtest],keys=[0,1]), columns=['x'])
# 从多索引中选择数据并分配它们
Xtrain,Xtest = temp.xs(0),temp.xs(1)
# Xtrain.as_matrix()
# array([[0, 0, 0, 1, 0],
# [0, 1, 0, 0, 0],
# [0, 0, 1, 0, 0],
# [0, 0, 0, 0, 1],
# [0, 0, 1, 0, 0],
# [1, 0, 0, 0, 0]], dtype=uint8)
# Xtest.as_matrix()
# array([[0, 0, 0, 1, 0],
# [0, 0, 0, 0, 1],
# [1, 0, 0, 0, 0],
# [0, 0, 1, 0, 0]], dtype=uint8)
不建议采用这种方法。这是一种简单但有很多缺点的技巧。@【隐藏人名】的回答对此有更好的解释。