Home IT技术如何在训练后使用CountVectorizer测试新数据

如何在训练后使用CountVectorizer测试新数据

IT技术 xiaolong · 2025年5月24日 · 0 Comment

我之前是这样使用CountVectorizer的：

from sklearn.feature_extraction.text import CountVectorizer  vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7, stop_words=stopwords.words('arabic'))  X = vectorizer.fit_transform(X).toarray()

这段代码会将字符串转换为二进制形式，然后我将对数据进行训练。然而，现在我有一些小的测试数据。我该如何将其转换为二进制形式，以便进行比较呢？

回答：

只需使用你在训练数据上拟合的vectorizer，将你的文本转换为与训练模型所期望的相同格式即可：

test_vectors = vectorizer.transform(test_text_data)

machine-learning python scikit-learn vectorization

发表回复取消回复