什么是sk-learn分类器的输入格式?

我刚开始使用scikit和numpy/pandas,但我对Python和数据处理有一定的了解。我对sk-learn分类器的输入格式感到困惑。我尝试使用调试器来检查sk-learn教程示例中使用的示例矩阵,但它们包含大量成员,我无法区分哪些是数据,哪些是派生出来的。

有没有某个参考规格说明了数组应该是什么样子,以及如何构造它才能成为sk-learn分类器的有效输入?


回答:

Sklearn期望你的特征矩阵X具有以下形式:

ind feat1   feat20   2   11   1   2

你可以使用pandas数据框或numpy数组作为输入。

如果你使用的是分类学习,那么y需要与X具有相同数量的行。

你可以从sklearn加载数据集,并检查矩阵的维度和形状,因为它们已经适合问题相关的算法(在这种情况下,它将是一个监督回归问题):

import sklearn.datasetsX,y = sklearn.datasets.load_boston(return_X_y=True)X.shape[0] == y.shape[0]

输出

True

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注