在现有的文本分类(监督学习)技术中,为什么我们不将文本中的命名实体(NE)作为训练和测试的特征呢?你认为使用命名实体作为特征可以提高精度吗?
回答:
这很大程度上取决于你所工作的领域。你需要根据领域来定义特征。例如,在搜索引擎中,你正在处理学习排序问题,生成动态排名,命名实体在这里不会给你带来任何好处。这主要取决于你所工作的领域以及定义的输出分类标签(监督学习)。
现在假设你在分类与足球、电影或政治等相关的文档。在这种情况下,命名实体可以发挥作用。我给你举个例子,假设你使用神经网络将文档分类为足球、电影、政治等。现在假设有一份文档内容是:“Lionel Messi被邀请参加电影《社交网络》的首映礼,现场还有演员和剧组成员,包括@人名、@人名和@人名。” 在这里,命名实体(输入特征)与电影(定义的输出)之间的联系会更强,因此它会被分类为关于电影的文档。
另一个例子,假设我们的文档是:“@人名在电影《最后的足球比赛》中饰演Lionel Messi的角色。” 这里的好处在于,如果你的神经网络已经学会了当一个演员和一个足球运动员出现在同一文档中时,有很高的概率这是一部电影。当然,这也取决于数据和训练,情况也可能是相反的(但这就是学习的意义所在;观察过去的数据)。
所以我的回答是,不妨尝试一下,没有人阻止你将命名实体作为特征。对于你所工作的领域,这可能会有所帮助。