我已经在scikit-learn
中对一些文档使用了CountVectorizer
进行拟合。我希望查看所有术语及其在文本语料库中的相应频率,以便选择停用词。例如
'and' 出现123次,'to' 出现100次,'for' 出现90次,... 等等
有没有内置的函数可以做到这一点?
回答:
如果cv
是你的CountVectorizer
,而X
是向量化的语料库,那么
zip(cv.get_feature_names(), np.asarray(X.sum(axis=0)).ravel())
会返回CountVectorizer
提取的语料库中每个不同术语的(术语, 频率)
对列表。
(使用asarray
+ ravel
的小技巧是为了解决scipy.sparse
中的一些特殊情况。)