查阅scikit-learn文档代码时,建议先实现CountVectorizer,然后再使用TFIDF。我可以只使用TFIDF吗?http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
如果我只使用TFIDF,并将预处理后的文本作为输入,它不会接受这种数据类型(我尝试过列表和np数组)。有人能帮我吗?
回答:
- 在他们展示的例子中,他们在
CountVectorizer
之上使用了TfidfTransformer
。直接使用TfidfVectorizer
会产生相同的结果。因此,选择哪种加权方案取决于你。 - 我不太理解你的问题。Scikit的向量化器可以接受不同类型的输入,从字符串列表/数组到文件描述符和其他类型。构造ngrams时,它使用
tokenizer=
和preprocessor=
参数。你的问题是什么?