就像Python的nltk中有内置的Porter词干提取器一样(https://stackoverflow.com/a/10369407/3096792),我想知道Java的Apache OpenNLP工具包中是否有内置的Porter词干提取器,尽管这个包下有一个接口[opennlp.tools.stemmer.Stemmer]。由于我目前不需要了解词干提取背后的算法,我需要Apache OpenNLP工具包下的标准包。如果没有,Java中的替代方案是什么?
回答:
您可以使用Apache Lucene Snowball库 这里
只需将此jar文件放入您的构建路径并使用它
PorterStemmer stemmer = new PorterStemmer();stemmer.setCurrent(input); //设置需要提取词干的字符串stemmer.stem(); //提取词干stemmer.getCurrent();//获取提取词干后的词