如何处理测试数据中某列缺失值时的一热编码问题?

例如,如果我的训练数据在某列中包含分类值(1,2,3,4,5),那么一热编码将生成5列。但在我的测试数据中,可能只有其中的4个值,即(1,3,4,5)。因此,一热编码只会生成4列。所以,如果我将训练好的权重应用到测试数据上,由于训练和测试数据的列维度不匹配,即dim(4)!=dim(5),我会得到一个错误。关于如何处理缺失的列值,有什么建议吗?我代码的图片如下所示:

图片


回答:

你可以先合并两个数据框,然后进行get_dummies操作,最后再将它们分开,这样它们就可以拥有完全相同的列数,例如:

# 示例数据框
Xtrain = pd.DataFrame({'x':np.array([4,2,3,5,3,1])})
Xtest = pd.DataFrame({'x':np.array([4,5,1,3])})
# 通过keys合并然后进行get_dummies
temp = pd.get_dummies(pd.concat([Xtrain,Xtest],keys=[0,1]), columns=['x'])
# 从多索引中选择数据并分配它们
Xtrain,Xtest = temp.xs(0),temp.xs(1)
# Xtrain.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 1, 0, 0, 0],
#        [0, 0, 1, 0, 0],
#        [0, 0, 0, 0, 1],
#        [0, 0, 1, 0, 0],
#        [1, 0, 0, 0, 0]], dtype=uint8)
# Xtest.as_matrix()
# array([[0, 0, 0, 1, 0],
#        [0, 0, 0, 0, 1],
#        [1, 0, 0, 0, 0],
#        [0, 0, 1, 0, 0]], dtype=uint8)

不建议采用这种方法。这是一种简单但有很多缺点的技巧。@【隐藏人名】的回答对此有更好的解释。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注