我已经搜索了一段时间,但没有找到任何相关信息。
我遇到的问题是:我想训练一个模型,输入后得到自定义的BIO标签。例如,对于输入“My dad lives in Manhattan, his name is Anthony Clark”,以及类别LOC和PER,输出应该为:
[(My, O),(dad,O), (lives, O), (in,O), (Manhattan, B-LOC), (, , O), (his,O), (name,O), (is,O), (Anthony, B-PER), (Clark,I-PER)]
这可以用NTLK实现吗?我应该包含哪些特征?
回答:
我发现我不需要NLTK来做这个;但POS标注器作为训练特征会很有用。使用默认的NLTK POS标注器之外,还有更好的选择,比如Stanford Tagger或Freeling。