我正在使用sci-kit
的TdidfVectorizer
从一系列科学文章中提取关键词。有一个关于停用词的参数,但我想要知道是否可以为诸如“Bohr”或“Japan”这样的专有名词增加更多的权重/分数。
我是否需要实现自己的自定义tfidf vectorizer
,还是可以继续使用这个内置的工具?
tf = TfidfVectorizer(strip_accents='ascii', analyzer='word', ngram_range=(1,1), min_df = 0, stop_words = stopwords, lowercase = True)
回答:
你可以对TfIdf矩阵进行后处理来实现这一点。
首先,你需要浏览所有单词的索引,找出所有专有名词的索引,然后浏览矩阵并增加这些索引的权重。