在Denny Britz关于循环神经网络的博客中。作者提到,”上图在每个时间步都有输出,但根据任务的不同,这可能不是必要的。例如,在预测句子情感时,我们可能只关心最终的输出,而不在意每个词后的情感。同样,我们可能不需要在每个时间步输入数据。“
当我们仅在最后时间步获取输出时:如果没有每个时间步的输出,只有最后一个输出,反向传播会如何改变?我们需要在每个时间步定义损失,但没有输出该如何定义呢?
回答:
并不是说你“需要在每个时间步定义输出”,实际上,当只有一个输出时,时间上的反向传播比图中展示的要简单。如果只有一个输出,只需“将你的网络旋转90度”,它就会变成一个普通的前馈网络(只是有一些信号直接进入隐藏层)——反向传播像往常一样工作,将偏导数推过系统。当我们在每个步骤都有输出时,情况变得更加复杂,通常你会定义真实损失为所有“小损失”的总和,因此你必须将所有梯度相加。