Home IT技术如何在scikit的TfidfVectorizer中为专有名词增加权重

如何在scikit的TfidfVectorizer中为专有名词增加权重

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我正在使用sci-kit的TdidfVectorizer从一系列科学文章中提取关键词。有一个关于停用词的参数，但我想要知道是否可以为诸如“Bohr”或“Japan”这样的专有名词增加更多的权重/分数。

我是否需要实现自己的自定义tfidf vectorizer，还是可以继续使用这个内置的工具？

tf = TfidfVectorizer(strip_accents='ascii',                      analyzer='word',                     ngram_range=(1,1),                     min_df = 0,                     stop_words = stopwords,                     lowercase = True)

回答：

你可以对TfIdf矩阵进行后处理来实现这一点。

首先，你需要浏览所有单词的索引，找出所有专有名词的索引，然后浏览矩阵并增加这些索引的权重。

machine-learning nlp nltk python scikit-learn

发表回复取消回复