Transformer编码器中的查询填充掩码和键填充掩码

我在使用pytorch的nn.MultiheadAttention实现变换器编码器中的自注意力部分时,对变换器的填充掩码感到困惑。

下图展示了查询(行)和键(列)的自注意力权重。

如您所见,有一些标记为”<PAD>”的标记,我已经在键中对其进行了掩码处理。因此,这些标记不会计算注意力权重。

enter image description here

仍然有两个问题:

  1. 在查询部分,除了红色方块部分之外,我也能够掩码这些”<PAD>”吗?这样做合理吗?

  2. 如何在查询中掩码”<PAD>”?

注意力权重还通过在src_masksrc_key_padding_mask参数中提供掩码,沿着行使用softmax函数。如果我将所有”<PAD>”行设置为-infsoftmax将返回nan,损失也会变成nan


回答:

在自注意力过程中没有必要对查询进行掩码,只要在网络的后续部分不使用对应于<PAD>标记的状态(无论是作为隐藏状态还是键/值),它们就不会影响损失函数或网络中的其他任何部分。

如果您想确保没有因梯度通过<PAD>标记而导致的错误,您可以在自注意力计算后使用torch.where明确地将其置零。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注