Home IT技术使用Stanford NLP进行文本分词：过滤不需要的词和字符

使用Stanford NLP进行文本分词：过滤不需要的词和字符

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我在分类工具中使用Stanford NLP进行字符串分词。我希望只得到有意义的词，但却得到了非词标记（如---、>、.等）和不重要的词如am、is、to（停用词）。有谁知道如何解决这个问题吗？

回答：

这是一个非常特定领域的任务，我们在CoreNLP中不会为您执行此操作。您应该能够通过在CoreNLP分词器上使用正则表达式过滤器和停用词过滤器来实现这一点。

这里有一个英文停用词的示例列表。

huggingface-tokenizers java machine-learning stanford-nlp

发表回复取消回复