假设我们正在训练一个神经网络模型,以学习从以下输入到输出的映射,其中输出是命名实体(NE)。
输入:欧盟拒绝德国抵制英国羊肉的号召。
输出:ORG O MISC O O O MISC O O
创建了一个滑动窗口来捕捉上下文信息,其结果被输入到训练模型作为模型输入。滑动窗口生成的结果如下:
[['<s>', '<s>', 'EU', 'rejects', 'German'],\ ['<s>', 'EU', 'rejects', 'German', 'call'],\ ['EU', 'rejects', 'German', 'call', 'to'],\ ['rejects', 'German', 'call', 'to', 'boycott'],\ ['German', 'call', 'to', 'boycott', 'British'],\ ['call', 'to', 'boycott', 'British', 'lamb'],\ ['to', 'boycott', 'British', 'lamb', '.'],\ ['boycott', 'British', 'lamb', '.', '</s>'],\ ['British', 'lamb', '.', '</s>', '</s>']]
<s>
表示句子开始标记,</s>
表示句子结束标记,每个滑动窗口对应输出中的一个命名实体。
为了处理这些标记,使用了预训练的嵌入模型将词转换为向量(例如,Glove),但这些预训练模型不包括<s>
和</s>
这样的标记。我认为对<s>
和</s>
进行随机初始化在这里不是一个好主意,因为这种随机结果的规模可能与其他Glove嵌入不一致。
问题:对于<s>
和</s>
的嵌入设置有何建议?为什么?
回答:
一般来说,答案取决于你打算如何在任务中使用这些嵌入。
我猜测<s>
和</s>
标记的使用是由LSTM或其他循环神经网络决定的,这些网络位于嵌入层之后。如果你要训练词嵌入本身,我建议你干脆去掉这些标记,因为它们不增加任何价值。开始和停止标记在LSTM中确实重要(尽管并非总是如此),但它们的词嵌入可以是任意的,小随机数就足够了,因为这种向量会与所有“正常”向量同样远。
如果你不想干扰预训练的GloVe向量,我建议你冻结嵌入层。例如,在tensorflow中,这可以通过在嵌入查找后使用tf.stop_gradient
操作来实现。这样,网络就不会学习<s>
与其他词之间的任何关系,但这是完全可以的,并且任何现有的关系都不会改变。