Home IT技术训练自定义BIO标注器使用NTLK

训练自定义BIO标注器使用NTLK

IT技术 xiaolong · 2025年4月16日 · 0 Comment

我已经搜索了一段时间，但没有找到任何相关信息。

我遇到的问题是：我想训练一个模型，输入后得到自定义的BIO标签。例如，对于输入“My dad lives in Manhattan, his name is Anthony Clark”，以及类别LOC和PER，输出应该为：

[(My, O),(dad,O), (lives, O), (in,O), (Manhattan, B-LOC), (, , O), (his,O), (name,O), (is,O), (Anthony, B-PER), (Clark,I-PER)]

这可以用NTLK实现吗？我应该包含哪些特征？

回答：

我发现我不需要NLTK来做这个；但POS标注器作为训练特征会很有用。使用默认的NLTK POS标注器之外，还有更好的选择，比如Stanford Tagger或Freeling。

machine-learning nlp python

发表回复取消回复