使用SVM进行分类

为了对文本进行分类,我想使用SVM。我想将测试数据分类到一个标签中(健康/成人)。训练和测试数据都是文本文件。

我使用的是Python的scikit库。在将文本保存到txt文件时,我使用了utf-8编码,这就是为什么我在代码片段中对它们进行解码。以下是我尝试的代码:

String = String.decode('utf-8')String2 = String2.decode('utf-8')bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),                                     token_pattern=r'\b\w+\b', min_df=1)X_2 = bigram_vectorizer.fit_transform(String2).toarray()X_1 = bigram_vectorizer.fit_transform(String).toarray()X_train = np.array([X_1,X_2])print type(X_train)y = np.array([1, 2])clf = SVC()clf.fit(X_train, y)#prepare test dataprint(clf.predict(X))

这是我得到的错误信息:

  File "/Users/guru/python_projects/implement_LDA/lda/apply.py", line 107, in <module>    clf.fit(X_train, y)  File "/Users/guru/python_projects/implement_LDA/lda/lib/python2.7/site-packages/sklearn/svm/base.py", line 150, in fit    X = check_array(X, accept_sparse='csr', dtype=np.float64, order='C')  File "/Users/guru/python_projects/implement_LDA/lda/lib/python2.7/site-packages/sklearn/utils/validation.py", line 373, in check_array    array = np.array(array, dtype=dtype, order=order, copy=copy)ValueError: setting an array element with a sequence.

当我搜索这个错误时,我找到了一些结果,但它们并没有帮助。我认为我在应用SVM模型时逻辑上是错误的。有人能给我一些提示吗?

参考:[1][2]


回答:

你需要结合你的样本,对它们进行向量化,然后再拟合分类器。像这样:

String = String.decode('utf-8')String2 = String2.decode('utf-8')bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),                                     token_pattern=r'\b\w+\b', min_df=1)X_train = bigram_vectorizer.fit_transform(np.array([String, String2]))print type(X_train)y = np.array([1, 2])clf = SVC()clf.fit(X_train, y)#prepare test dataprint(clf.predict(bigram_vectorizer.transform(np.array([X1, X2, ...]))))

但是只有2个样本,数据量非常少,所以你的预测可能不会很准确。

已编辑:

你还可以使用Pipeline将转换和分类结合在一个步骤中完成。

from sklearn.pipeline import Pipelineprint type(X_train) # 在你的情况下应该是一个长度为100的文本列表y_train = ... # 也应该是一个长度为100的列表clf = Pipeline([    ('transformer', CountVectorizer(...)),    ('estimator', SVC()),])clf.fit(X_train, y_train)X_test = np.array(["sometext"]) # 测试文本的数组,长度为1print(clf.predict(X_test))

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注