我在进行文本分析(主题建模),当我使用CountVectorizer
处理时,得到了一些与我的需求无关的数字、日期和地点。我原本以为我可以传入预处理函数,但scikit-learn的预处理页面似乎没有提供我构建预处理器所需的信息。
回答:
你可以更改CountVectorizer
中的token_pattern
参数。
Token模式是一个正则表达式,用于定义什么构成一个“token”,仅当analyzer == 'word'
时使用。Token模式的类型是字符串。
默认的token_pattern=r"(?u)\b\w\w+\b"
。默认的正则表达式选择2个或更多字母数字字符的token(标点符号被完全忽略,始终被视为token分隔符)。你可以根据需要更改它(例如忽略日期)。