Home IT技术使用Scikit-Learn的CountVectorizer按文本语料库中的出现频率列出词汇表中的单词

使用Scikit-Learn的CountVectorizer按文本语料库中的出现频率列出词汇表中的单词

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我已经在scikit-learn中对一些文档使用了CountVectorizer进行拟合。我希望查看所有术语及其在文本语料库中的相应频率，以便选择停用词。例如

'and' 出现123次，'to' 出现100次，'for' 出现90次，... 等等

有没有内置的函数可以做到这一点？

回答：

如果cv是你的CountVectorizer，而X是向量化的语料库，那么

zip(cv.get_feature_names(),    np.asarray(X.sum(axis=0)).ravel())

会返回CountVectorizer提取的语料库中每个不同术语的(术语, 频率)对列表。

(使用asarray + ravel的小技巧是为了解决scipy.sparse中的一些特殊情况。)

countvectorizer machine-learning python scikit-learn text-extraction

发表回复取消回复