使用Keras构建RNN编码器-解码器

我正在尝试构建一个用于机器语言翻译（从英语到法语）的架构

model = Sequential()model.add(LSTM(256, input_shape =(15,1)))model.add(RepeatVector(output_sequence_length))model.add(LSTM(21,return_sequences=True))model.add(TimeDistributed(Dense(french_vocab_size, activation='sigmoid'))

英语句子的最大长度为15，法语为21。英语单词的最大数量为199，法语为399。output_sequence_length 为21。这个模型给我抛出了一个错误

检查输入时出错：期望 lstm_40_input 的形状为 (None, 15, 1)，但得到的数组形状为 (137861, 21, 1)

我对Keras中的LSTM理解有些困惑。

1.根据文档，第一个参数必须是“输出空间的维度”。我不明白这是什么意思。此外，

当return_sequences设置为True时，具体会发生什么

请告诉我。

回答：

你试图向网络输入什么类型的数据？因为在我看来，你没有将单词转换为向量（二进制向量或编码向量）。

无论如何，LSTM网络需要一个三维输入，这些维度对应于：（样本，时间步，长）。

在你的例子中，样本对应于你的句子数量，我猜是137861。时间步对应于每个序列的长度，在你的例子中是15，而特征是每个编码单词的大小（取决于你选择的编码类型。如果你选择OneHotEncoding，它将是199）。

你得到的错误显示，你向网络输入了21个时间步的序列，而不是15个。

对于你的第二个问题，当return_sequences设置为False时，它每个LSTM层只返回一个输出，在你的第一个LSTM层的情况下将是(256,)。当它设置为True时，它将为每个时间步返回一个输出，总体输出形状为(15, 256)。当你想要堆叠两个或更多LSTM层时，你总是需要将第一层设置为return_sequences = True。

另外，你正在构建的被称为多对多架构，输入和输出的时间步长度不同（15对21）。据我所知，在Keras中实现这一点并不容易。

学技术

使用Keras构建RNN编码器-解码器

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复