NLP – 选择句子开始和结束标记的嵌入

假设我们正在训练一个神经网络模型,以学习从以下输入到输出的映射,其中输出是命名实体(NE)。

输入:欧盟拒绝德国抵制英国羊肉的号召。

输出:ORG O MISC O O O MISC O O

创建了一个滑动窗口来捕捉上下文信息,其结果被输入到训练模型作为模型输入。滑动窗口生成的结果如下:

 [['<s>', '<s>', 'EU', 'rejects', 'German'],\ ['<s>', 'EU', 'rejects', 'German', 'call'],\ ['EU', 'rejects', 'German', 'call', 'to'],\ ['rejects', 'German', 'call', 'to', 'boycott'],\ ['German', 'call', 'to', 'boycott', 'British'],\ ['call', 'to', 'boycott', 'British', 'lamb'],\ ['to', 'boycott', 'British', 'lamb', '.'],\ ['boycott', 'British', 'lamb', '.', '</s>'],\ ['British', 'lamb', '.', '</s>', '</s>']]

<s>表示句子开始标记,</s>表示句子结束标记,每个滑动窗口对应输出中的一个命名实体。

为了处理这些标记,使用了预训练的嵌入模型将词转换为向量(例如,Glove),但这些预训练模型不包括<s></s>这样的标记。我认为对<s></s>进行随机初始化在这里不是一个好主意,因为这种随机结果的规模可能与其他Glove嵌入不一致。

问题:对于<s></s>的嵌入设置有何建议?为什么?


回答:

一般来说,答案取决于你打算如何在任务中使用这些嵌入。

我猜测<s></s>标记的使用是由LSTM或其他循环神经网络决定的,这些网络位于嵌入层之后。如果你要训练词嵌入本身,我建议你干脆去掉这些标记,因为它们不增加任何价值。开始和停止标记在LSTM中确实重要(尽管并非总是如此),但它们的词嵌入可以是任意的,小随机数就足够了,因为这种向量会与所有“正常”向量同样远。

如果你不想干扰预训练的GloVe向量,我建议你冻结嵌入层。例如,在tensorflow中,这可以通过在嵌入查找后使用tf.stop_gradient操作来实现。这样,网络就不会学习<s>与其他词之间的任何关系,但这是完全可以的,并且任何现有的关系都不会改变。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注