Home IT技术最后一步的状态与RNN/LSTM/GRU所有时间步的状态

最后一步的状态与RNN/LSTM/GRU所有时间步的状态

IT技术 xiaolong · 2025年4月14日 · 0 Comment

根据我目前的理解，在为序列分类任务训练了一个RNN/LSTM模型后，我可以用以下两种方式进行预测，

使用最后的状态，并通过一个softmax层进行预测
使用所有时间步的状态，在每个时间步进行预测，并在总和预测后取最大值

一般来说，有没有选择其中一种方法的理由？还是这取决于具体应用？另外，如果我决定使用第二种策略，我应该为每个时间步使用不同的softmax层，还是为所有时间步使用一个softmax层？

回答：

我从未见过任何实现第二种方法的网络。最明显的原因是，除了最后一个状态之外，其他的状态都没有看到整个序列。

以评论情感分类为例，它可能从几个正面方面开始，之后出现一个“但是”后面跟着一系列缺点。在“但是”之前的所有RNN单元都将受到偏见，它们的状态无法反映真实的标签。它们中有多少输出正面类别以及它们的置信度有多高重要吗？无论如何，最后一个单元的输出将是一个更好的预测器，所以我认为没有理由考虑之前的单元。

如果数据的顺序性在特定问题中不重要，那么RNN总体来说似乎不是一个好的方法。否则，你最好使用最后的状态。

然而，在带有注意力机制的序列到序列模型中有一个例外（例如参见这个问题）。但这是不同的，因为解码器在每个步骤预测一个新的标记，因此它可以从查看早期状态中受益。此外，它还使用了最终的隐藏状态信息。

bilstm deep-learning machine-learning neural-network recurrent-neural-network

发表回复取消回复