使用Keras构建RNN编码器-解码器

我正在尝试构建一个用于机器语言翻译(从英语到法语)的架构

model = Sequential()model.add(LSTM(256, input_shape =(15,1)))model.add(RepeatVector(output_sequence_length))model.add(LSTM(21,return_sequences=True))model.add(TimeDistributed(Dense(french_vocab_size, activation='sigmoid'))

英语句子的最大长度为15,法语为21。英语单词的最大数量为199,法语为399。output_sequence_length 为21。这个模型给我抛出了一个错误

检查输入时出错:期望 lstm_40_input 的形状为 (None, 15, 1),但得到的数组形状为 (137861, 21, 1)

我对Keras中的LSTM理解有些困惑。

1.根据文档,第一个参数必须是“输出空间的维度”。我不明白这是什么意思。此外,

  1. return_sequences设置为True时,具体会发生什么

请告诉我。


回答:

你试图向网络输入什么类型的数据?因为在我看来,你没有将单词转换为向量(二进制向量或编码向量)。

无论如何,LSTM网络需要一个三维输入,这些维度对应于:(样本,时间步,长)。

在你的例子中,样本对应于你的句子数量,我猜是137861。时间步对应于每个序列的长度,在你的例子中是15,而特征是每个编码单词的大小(取决于你选择的编码类型。如果你选择OneHotEncoding,它将是199)。

你得到的错误显示,你向网络输入了21个时间步的序列,而不是15个。

对于你的第二个问题,当return_sequences设置为False时,它每个LSTM层只返回一个输出,在你的第一个LSTM层的情况下将是(256,)。当它设置为True时,它将为每个时间步返回一个输出,总体输出形状为(15, 256)。当你想要堆叠两个或更多LSTM层时,你总是需要将第一层设置为return_sequences = True

另外,你正在构建的被称为多对多架构,输入和输出的时间步长度不同(15对21)。据我所知,在Keras中实现这一点并不容易。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注