文本分类中的命名实体作为特征?

在现有的文本分类(监督学习)技术中,为什么我们不将文本中的命名实体(NE)作为训练和测试的特征呢?你认为使用命名实体作为特征可以提高精度吗?


回答:

这很大程度上取决于你所工作的领域。你需要根据领域来定义特征。例如,在搜索引擎中,你正在处理学习排序问题,生成动态排名,命名实体在这里不会给你带来任何好处。这主要取决于你所工作的领域以及定义的输出分类标签(监督学习)。

现在假设你在分类与足球、电影或政治等相关的文档。在这种情况下,命名实体可以发挥作用。我给你举个例子,假设你使用神经网络将文档分类为足球、电影、政治等。现在假设有一份文档内容是:“Lionel Messi被邀请参加电影《社交网络》的首映礼,现场还有演员和剧组成员,包括@人名、@人名和@人名。” 在这里,命名实体(输入特征)与电影(定义的输出)之间的联系会更强,因此它会被分类为关于电影的文档。

另一个例子,假设我们的文档是:“@人名在电影《最后的足球比赛》中饰演Lionel Messi的角色。” 这里的好处在于,如果你的神经网络已经学会了当一个演员和一个足球运动员出现在同一文档中时,有很高的概率这是一部电影。当然,这也取决于数据和训练,情况也可能是相反的(但这就是学习的意义所在;观察过去的数据)。

所以我的回答是,不妨尝试一下,没有人阻止你将命名实体作为特征。对于你所工作的领域,这可能会有所帮助。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注