LSTM注意力机制如何处理可变长度输入

LSTM的注意力机制是一个直接的softmax前馈网络,它接收编码器每个时间步的隐藏状态以及解码器的当前状态。

这两步似乎是矛盾的,我无法理解:1)前馈网络的输入数量需要预先定义2)编码器的隐藏状态数量是可变的(取决于编码期间的时间步数)。

我是否误解了什么?另外,训练过程是否与训练普通的编码器/解码器网络相同,还是需要单独训练注意力机制?

提前感谢


回答:

我今天也问了自己同样的问题,并找到了这个问题。我从未自己实现过注意力机制,但从这篇论文来看,似乎不仅仅是一个简单的softmax。对于解码器网络的每个输出yi,计算一个上下文向量ci,作为编码器隐藏状态h1, …, hT的加权和:

ci = αi1h1+…+αiThT

时间步数T可能因样本而异,因为系数αij不是固定大小的向量。实际上,它们是由softmax(ei1, …, eiT)计算得出的,其中每个eij是神经网络的输出,其输入是编码器隐藏状态hj和解码器隐藏状态si-1

eij = f(si-1, hj)

因此,在计算yi之前,必须对这个神经网络进行T次评估,产生T个权重αi1,…,αiT。此外,这个tensorflow实现可能会有帮助。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注