使用sklearn pipelines进行fit_transform或predict操作，而不仅仅是fit操作

sklearn网站上的这个例子和StackOverflow上关于sklearn pipelines的这个回答仅讨论了在Pipelines中使用.fit()或.fit_transform()方法。

但是，如何在Pipelines中使用.predict或.transform方法呢？假设我已经预处理了训练数据，搜索了最佳超参数，并训练了一个LightGBM模型。现在我想对新数据进行预测，而不是手动完成上述所有步骤，我希望按顺序一次性完成所有操作，根据定义：

顺序应用一系列变换和最终的估计器。管道的中间步骤必须是‘变换’，也就是说，它们必须实现fit和transform方法。最终的估计器只需要实现fit方法。

但是，我只想在我的验证（或测试）数据上实现.transform方法，以及一些其他接受pandas Series（或DataFrame或numpy数组）并返回处理后的函数（或类），然后最终实现我的LightGBM的.predict方法，这将使用我已有的超参数。

我目前什么都没有，因为我不知道如何正确地包含类的方法（如StandardScaler_instance.transform()）以及更多这样的方法！

我该怎么做，或者我错过了什么？

回答：

你需要构建你的管道，其中包括LightGBM模型，并在你的（预处理过的）训练数据上训练管道。

用代码来说，可能会像这样：

import lightgbmfrom sklearn.pipeline import Pipelinefrom sklearn.datasets import make_classificationfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler# 创建一些训练和测试数据X, y = make_classification(random_state=0)X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)# 定义包含缩放器和lightgbm模型的管道pipe = Pipeline([('scaler', StandardScaler()), ('lightgbm', lightgbm.LGBMClassifier())])# 训练管道pipe.fit(X_train, y_train)# 使用管道（带lightgbm）进行预测print("预测结果:", pipe.predict(X_test))# 评估管道的性能print("性能得分:", pipe.score(X_test, y_test))

输出:

预测结果: [1 0 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 0 1 1 1 0 1 0 0]性能得分: 0.84

所以，回答你的问题：

但是，如何在Pipelines中使用.predict或.transform方法呢？

你不需要使用.transform，因为管道会自动处理你提供的变换器对输入数据的变换。这就是为什么在文档中提到：

管道的中间步骤必须是‘变换’，也就是说，它们必须实现fit和transform方法。

你可以像代码示例中那样对测试数据使用.predict方法。

在这个例子中，我使用了StandardScaler。你可以向管道提供你自己的自定义变换器，但它必须实现.transform()和.fit()方法，以便管道可以调用，并且变换器的输出需要与lightgbm模型所需的输入匹配。

更新

然后，你可以像文档中解释的那样，为管道的不同步骤提供参数：

**fit_paramsdict of string -> object 传递给每个步骤的fit方法的参数，其中每个参数名称前缀为s__p，表示步骤s的参数p。

学技术

使用sklearn pipelines进行fit_transform或predict操作，而不仅仅是fit操作

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复