Home IT技术词性标注器的训练数据从哪里获取？

词性标注器的训练数据从哪里获取？

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我想实现一个词性标注器，但不知道从哪里可以获取大量的训练数据？谢谢！

回答：

这里有来自CoNLL-2000会议分块共享任务的训练集和测试集：

http://www.cnts.ua.ac.be/conll2000/chunking/

其他人也使用这些数据来训练词性标注器：

https://code.google.com/p/miralium/wiki/PosTaggerTutorial

machine-learning nlp part-of-speech

发表回复取消回复