NLP – 选择句子开始和结束标记的嵌入

假设我们正在训练一个神经网络模型,以学习从以下输入到输出的映射,其中输出是命名实体(NE)。

输入:欧盟拒绝德国抵制英国羊肉的号召。

输出:ORG O MISC O O O MISC O O

创建了一个滑动窗口来捕捉上下文信息,其结果被输入到训练模型作为模型输入。滑动窗口生成的结果如下:

 [['<s>', '<s>', 'EU', 'rejects', 'German'],\ ['<s>', 'EU', 'rejects', 'German', 'call'],\ ['EU', 'rejects', 'German', 'call', 'to'],\ ['rejects', 'German', 'call', 'to', 'boycott'],\ ['German', 'call', 'to', 'boycott', 'British'],\ ['call', 'to', 'boycott', 'British', 'lamb'],\ ['to', 'boycott', 'British', 'lamb', '.'],\ ['boycott', 'British', 'lamb', '.', '</s>'],\ ['British', 'lamb', '.', '</s>', '</s>']]

<s>表示句子开始标记,</s>表示句子结束标记,每个滑动窗口对应输出中的一个命名实体。

为了处理这些标记,使用了预训练的嵌入模型将词转换为向量(例如,Glove),但这些预训练模型不包括<s></s>这样的标记。我认为对<s></s>进行随机初始化在这里不是一个好主意,因为这种随机结果的规模可能与其他Glove嵌入不一致。

问题:对于<s></s>的嵌入设置有何建议?为什么?


回答:

一般来说,答案取决于你打算如何在任务中使用这些嵌入。

我猜测<s></s>标记的使用是由LSTM或其他循环神经网络决定的,这些网络位于嵌入层之后。如果你要训练词嵌入本身,我建议你干脆去掉这些标记,因为它们不增加任何价值。开始和停止标记在LSTM中确实重要(尽管并非总是如此),但它们的词嵌入可以是任意的,小随机数就足够了,因为这种向量会与所有“正常”向量同样远。

如果你不想干扰预训练的GloVe向量,我建议你冻结嵌入层。例如,在tensorflow中,这可以通过在嵌入查找后使用tf.stop_gradient操作来实现。这样,网络就不会学习<s>与其他词之间的任何关系,但这是完全可以的,并且任何现有的关系都不会改变。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注