我之前是这样使用CountVectorizer的:
from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7, stop_words=stopwords.words('arabic')) X = vectorizer.fit_transform(X).toarray()
这段代码会将字符串转换为二进制形式,然后我将对数据进行训练。然而,现在我有一些小的测试数据。我该如何将其转换为二进制形式,以便进行比较呢?
回答:
只需使用你在训练数据上拟合的vectorizer
,将你的文本转换为与训练模型所期望的相同格式即可:
test_vectors = vectorizer.transform(test_text_data)