Sklearn的fit和predict方法,列的顺序重要吗?

假设X1X2是两个拥有相同列但列顺序可能不同的pandas数据框。假设model是某种sklearn模型,比如LassoCV。如果我执行model.fit(X1, y),然后执行model.predict(X2),列顺序不同是否会造成问题?还是说模型会根据列名保存权重?

同样的问题,如果X1X2是numpy数组呢?


回答:

是的,我认为这会产生影响,因为sklearn会将pandas数据框转换为值的数组(基本上是调用X1.values),而不会关注列名。不过,这很容易解决。只需使用:

X2 = X2[X1.columns]

这样就可以将X2的列重新排序为与X1相同的顺序。

当然,对于numpy数组也是如此,因为模型会根据X1中的列顺序进行拟合,所以当你对X2进行预测时,它将基于X1中的列顺序进行预测。

示例

以这两个数据框为例:

>>> X1   a  b0  1  51  2  62  3  7>>> X2   b  a0  5  31  4  22  6  1

模型是在X1.values上拟合的:

array([[1, 5],       [2, 6],       [3, 7]])

然后你在X2.values上进行预测:

>>> X2.valuesarray([[5, 3],       [4, 2],       [6, 1]])

模型无法知道列是交换过的。因此需要手动交换它们:

X2 = X2[X1.columns]>>> X2   a  b0  3  51  2  42  1  6

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注