如何处理测试数据中某列缺失值时的一热编码问题?

例如,如果我的训练数据在某列中包含分类值(1,2,3,4,5),那么一热编码将生成5列。但在我的测试数据中,可能只有其中的4个值,即(1,3,4,5)。因此,一热编码只会生成4列。所以,如果我将训练好的权重应用到测试数据上,由于训练和测试数据的列维度不匹配,即dim(4)!=dim(5),我会得到一个错误。关于如何处理缺失的列值,有什么建议吗?我代码的图片如下所示:

图片


回答:

你可以先合并两个数据框,然后进行get_dummies操作,最后再将它们分开,这样它们就可以拥有完全相同的列数,例如:

# 示例数据框
Xtrain = pd.DataFrame({'x':np.array([4,2,3,5,3,1])})
Xtest = pd.DataFrame({'x':np.array([4,5,1,3])})
# 通过keys合并然后进行get_dummies
temp = pd.get_dummies(pd.concat([Xtrain,Xtest],keys=[0,1]), columns=['x'])
# 从多索引中选择数据并分配它们
Xtrain,Xtest = temp.xs(0),temp.xs(1)
# Xtrain.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 1, 0, 0, 0],
#        [0, 0, 1, 0, 0],
#        [0, 0, 0, 0, 1],
#        [0, 0, 1, 0, 0],
#        [1, 0, 0, 0, 0]], dtype=uint8)
# Xtest.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 0, 0, 0, 1],
#        [1, 0, 0, 0, 0],
#        [0, 0, 1, 0, 0]], dtype=uint8)

不建议采用这种方法。这是一种简单但有很多缺点的技巧。@【隐藏人名】的回答对此有更好的解释。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注