使用预处理数据进行Sci-kit分类

我正在尝试使用Sci-kit learn Python库来对一组URL进行分类，以检测是否存在与用户配置文件匹配的特定关键词。每个用户都有姓名、电子邮件地址…以及分配给他们的URL。我已经创建了一个txt文件，记录了每个配置文件数据在每个链接上的匹配结果，格式如下：

姓名  电子邮件  地址  0     1      0      =>相关  1     1      0      =>相关  0     1      1      =>相关  0     0      0      =>不相关

其中0或1表示该属性是否在页面上找到（每行代表一个网页）。我该如何将这些数据提供给Sci-kit，以便它可以使用这些数据运行分类器？我看到的示例中，数据都来自预定义的sch-kit库，如digits或iris，或者是以我已经有的格式生成的。我只是不知道如何使用我现有的数据格式来提供给库

以上是一个玩具示例，我有比3个更多的特征

回答：

所需的数据是一个numpy数组（在这种情况下是一个“矩阵”），形状为(n_samples, n_features)。

使用numpy.genfromtxt可以简单地将csv文件读取到正确的格式。另请参考这个线程。

假设csv文件的内容（假设为当前工作目录中的file.csv）为：

a,b,c,target1,1,1,01,0,1,01,1,0,10,0,1,10,1,1,0

要加载它，我们执行

data = np.genfromtxt('file.csv', skip_header=True)

将skip_header设置为True，以防止读取标题列（a,b,c,target行）。有关更多详细信息，请参考numpy的文档。

一旦加载数据，你需要根据你的输入数据格式进行一些预处理。预处理可能包括将输入和目标（分类）分开，或者将整个数据集分成训练集和验证集（用于交叉验证）。

要将输入（特征矩阵）与输出（目标向量）分开，我们执行

features = data[:, :3]targets = data[:, 3]   # 最后一列被识别为目标

对于上述给定的CSV数据，数组将如下所示：

features = array([[ 0, 1, 0],              [ 1, 1, 0],              [ 0, 1, 1],              [ 0, 0, 0]])  # 形状 = ( 4, 3)targets = array([ 1, 1, 1, 0])  # 形状 = ( 4, )

现在这些矩阵被传递给估计器对象的fit函数。如果你使用的是流行的svm分类器，那么

>>> from sklearn.svm import LinearSVC>>> linear_svc_model = LinearSVC()>>> linear_svc_model.fit(X=features, y=targets)

学技术

使用预处理数据进行Sci-kit分类

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复