如何计算变换器对空白标记预测的损失？

我目前正在尝试实现一个变换器，并且在理解其损失计算方面遇到了困难。

我的编码器输入在批次大小为1且最大句子长度为8时看起来像这样：

[[Das, Wetter, ist, gut, <blank>, <blank>, <blank>, <blank>]]

我的解码器输入看起来像（德语到英语）：

[[<start>, The, weather, is, good, <end>, <blank>, <blank>]]

假设我的变换器预测了这些类概率（仅显示具有最高类概率的词）：

[[The, good, is, weather, <end>, <blank>, <blank>, <blank>]]

现在我使用以下方式计算损失：

loss = categorical_crossentropy(   [[The, good, is, weather, <end>, <blank>, <blank>, <blank>]],   [[The, weather, is, good, <end>, <blank>, <blank>, <blank>]])

这是计算损失的正确方法吗？我的变换器总是预测下一个词为空白标记，我认为这是因为我的损失计算有误，在计算损失之前需要对空白标记做一些处理。

回答：

你需要屏蔽填充部分。（你称之为<blank>的通常被称为<pad>。）

创建一个掩码，指示有效标记的位置（伪代码：mask = target != '<pad>'）
在计算类别交叉熵时，不要自动减少损失并保持其值。
将损失值与掩码相乘，即对应<blank>标记的位置将被置零，并对有效位置的损失进行求和。（伪代码：loss_sum = (loss * mask).sum()）
将loss_sum除以有效位置的数量，即掩码的总和（伪代码：loss = loss_sum / mask.sum()）

学技术

如何计算变换器对空白标记预测的损失？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复