要在文本上应用机器学习算法,必须将其以数字形式表示。使用sklearn可以实现的方法包括:
-
CountVectorizer
-
CountVectorizer + TfidfTransformer
-
TfidfVectorizer
CountVectorizer+TfidfTransformer与TfidfVectorizer有什么区别?
回答:
没有区别,请查看文档页面的顶部:
sklearn.feature_extraction.text.TfidfVectorizer...相当于先使用CountVectorizer,然后再使用TfidfTransformer。