LSTM注意力机制如何处理可变长度输入

LSTM的注意力机制是一个直接的softmax前馈网络，它接收编码器每个时间步的隐藏状态以及解码器的当前状态。

这两步似乎是矛盾的，我无法理解：1）前馈网络的输入数量需要预先定义2）编码器的隐藏状态数量是可变的（取决于编码期间的时间步数）。

我是否误解了什么？另外，训练过程是否与训练普通的编码器/解码器网络相同，还是需要单独训练注意力机制？

提前感谢

回答：

我今天也问了自己同样的问题，并找到了这个问题。我从未自己实现过注意力机制，但从这篇论文来看，似乎不仅仅是一个简单的softmax。对于解码器网络的每个输出y_i，计算一个上下文向量c_i，作为编码器隐藏状态h₁, …, h_T的加权和：

c_i = α_i1h₁+…+α_iTh_T

时间步数T可能因样本而异，因为系数α_ij不是固定大小的向量。实际上，它们是由softmax(e_i1, …, e_iT)计算得出的，其中每个e_ij是神经网络的输出，其输入是编码器隐藏状态h_j和解码器隐藏状态s_i-1：

e_ij = f(s_i-1, h_j)

因此，在计算y_i之前，必须对这个神经网络进行T次评估，产生T个权重α_i1,…,α_iT。此外，这个tensorflow实现可能会有帮助。

学技术