Home IT技术在未知测试集上使用Select-K-best

在未知测试集上使用Select-K-best

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我在sklearn中训练了一个逻辑回归分类器。我的基础特征文件有65个特征，现在通过考虑二次组合（使用PolynomialFeatures()）将它们扩展到了1000个。然后我通过Select-K-Best()方法将它们减少到了100个。

然而，一旦我的模型训练完成，我得到一个新的测试文件，它只有65个基础特征，但我的模型期望有100个特征。

那么，当我不知道标签（这是Select-K-Best.fit()函数所需的）时，如何在我的测试集上应用Select-K-Best()方法呢？

回答：

你不应该在测试数据上再次拟合SelectKBest – 应该使用训练时已经拟合的同一个SelectKBest实例。也就是说，你应该只在测试数据上使用.transform方法，而不是.fit方法。

scikit-learn提供了一个工具，使管理多个步骤变得更加容易；它被称为Pipeline。在你的情况下，应该是这样的（通过make_pipeline辅助函数）：

pipe = make_pipeline(    PolynomialFeatures(2),     SelectKBest(100),     LogisticRegression())pipe.fit(X_train, y_train)y_pred = pipe.predict(X_test)

feature-engineering machine-learning scikit-learn

发表回复取消回复