Home IT技术如何从CountVectorizer中过滤特征？

如何从CountVectorizer中过滤特征？

IT技术 xiaolong · 2025年4月9日 · 0 Comment

我在进行文本分析（主题建模），当我使用CountVectorizer处理时，得到了一些与我的需求无关的数字、日期和地点。我原本以为我可以传入预处理函数，但scikit-learn的预处理页面似乎没有提供我构建预处理器所需的信息。

回答：

你可以更改CountVectorizer中的token_pattern参数。

Token模式是一个正则表达式，用于定义什么构成一个“token”，仅当analyzer == 'word'时使用。Token模式的类型是字符串。

默认的token_pattern=r"(?u)\b\w\w+\b"。默认的正则表达式选择2个或更多字母数字字符的token（标点符号被完全忽略，始终被视为token分隔符）。你可以根据需要更改它（例如忽略日期）。

data-cleaning data-science machine-learning scikit-learn topic-modeling

发表回复取消回复