我在分类工具中使用Stanford NLP
进行字符串分词。我希望只得到有意义的词,但却得到了非词标记(如---
、>
、.
等)和不重要的词如am
、is
、to
(停用词)。有谁知道如何解决这个问题吗?
回答:
这是一个非常特定领域的任务,我们在CoreNLP中不会为您执行此操作。您应该能够通过在CoreNLP分词器上使用正则表达式过滤器和停用词过滤器来实现这一点。
这里有一个英文停用词的示例列表。
我在分类工具中使用Stanford NLP
进行字符串分词。我希望只得到有意义的词,但却得到了非词标记(如---
、>
、.
等)和不重要的词如am
、is
、to
(停用词)。有谁知道如何解决这个问题吗?
回答:
这是一个非常特定领域的任务,我们在CoreNLP中不会为您执行此操作。您应该能够通过在CoreNLP分词器上使用正则表达式过滤器和停用词过滤器来实现这一点。
这里有一个英文停用词的示例列表。