我在尝试使用隐马尔可夫模型(HMM)进行命名实体识别,但后来发现包含实体的句子大多具有非常结构化的特点。例如:“今天苹果的价格是多少?” 那么,与其教模型学习句子中的每个单词,我能否教它学习句子的结构?比如,“What’s”或“What is”之后的每个单词都应该是某种水果的名字?
谢谢!
回答:
除了使用HMM之外,可以考虑使用条件随机场(CRF)。它们与HMM非常相似,但属于判别模型(按照Ng和Jordan的术语,HMM和线性链CRF构成了一对生成/判别模型)。
这样做的好处是,你可以定义单词观察的特征,比如当前单词的词性标签、前一个或多个单词的词性标签等,而不需要对这些特征做出独立性假设。这将允许你将结构和词汇特征整合到同一个决策框架中。