监督学习方法用于方面提取

我正在开发一个针对旅游领域在线旅行评论的方面级情感分析项目。

我有一个由人工标注的数据集,其中包含了标注的方面术语、方面类别以及它们的情感极性。

例如;

Sentence:This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

上述句子标注了以下方面术语;

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以及以下方面类别;

{entertainment#positive C} {accommodation#positive C}

我想尝试使用监督学习方法来训练一个模型,以便从句子中分类出方面术语。

我正在使用Stanford CORENLP库。但对于训练数据的格式应该是什么样的感到困惑?以及最佳的方法是什么?

我看到有人使用IOB标记法来格式化训练数据以训练NER系统。我可以使用类似的方法来完成这个任务吗?也就是说,我如何格式化我的训练数据文件,以便从输入句子中提取上述提到的方面术语?

如果有人能指导我正确的方向,我将非常感激。


回答:

这个问题可以通过将其分解为更小的子任务来解决。一个可能的流水线方法可能是:

  1. 第一阶段是方面术语提取,这将在原始文本中识别方面术语。这也可以分解为两个子任务。首先,您的系统需要标记文本中作为方面术语的标记。我们称这些标记的标记为方面术语提及。这被称为命名实体识别(NER)。接下来,如果您有一组预定义的方面术语类别,系统将需要将前一任务中找到的方面术语提及链接到这些类别。这被称为实体链接。值得注意的是,从您给出的例子来看,标注的数据集还不适合上述任务,因为标签尚未在文本中锚定。您可以通过猜测文本中的哪些标记对应于给定的标签来创建一个合适的数据集。这类似于远程监督工作。

  2. 下一个任务是方面术语情感分类。卷积神经网络已被用于句子和文档的情感分类,但如果在输入时提供标记以指示哪些标记正在被分类,它们可能会被调整以适合您的目的。这在该工作中被称为位置嵌入:http://www.cs.nyu.edu/~thien/pubs/vector15.pdf

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注