我正在使用spacy对情感分析的数据进行预处理。
我想做的是:
1) 词形还原
2) 对词形还原后的词进行词性标注
但是由于spacy在调用解析器时一次性完成所有处理,因此所有计算都被执行了两次。是否有选项可以禁用不需要的计算?
回答:
查看Language.call方法,了解各种处理是如何按顺序应用的。处理步骤并不多,基本是这样的:
doc = nlp.tokenizer(text)nlp.tagger(doc)nlp.parser(doc)nlp.entity(doc)
如果你需要不同的处理顺序,你应该编写自己的函数来重新组合这些步骤。
不过,我不太确定你所问的是否合理。如果你对词形还原后的文本应用词性标注器,统计模型可能不会表现得很好。屈折后缀是很重要的特征。