如何创建一个scikit-learn数据集?

我有一个数组,其中第一列是类别(以整数形式表示),其余列是特征。

例如像这样

1,0,34,23,20,0,21,11,03,11,2,11,1

我如何将其转换为scikit兼容的数据集,以便我可以调用类似mydataset = datasets.load_mydataset()的操作?


回答:

你可以简单地使用pandas。例如,如果你已经将数据集复制到dataset.csv文件中。只需在csv文件中适当标记列名即可。

In [1]: import pandas as pdIn [2]: df = pd.read_csv('temp.csv')In [3]: dfOut[3]:    Label  f1  f2  f3  f40      1   0  34  23   21      0   0  21  11   02      3  11   2  11   1In [4]: y_train= df['Label']In [5]: x_train = df.drop('Label', axis=1)In [6]: x_trainOut[6]:    f1  f2  f3  f40   0  34  23   21   0  21  11   02  11   2  11   1In [7]: y_trainOut[7]: 0    11    02    3

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注