我正在尝试不同的神经网络架构来处理基于词的自然语言处理任务。
到目前为止,我已经使用了双向、嵌入和基于GRU的模型,这些都是根据这个教程指导的:https://towardsdatascience.com/language-translation-with-rnns-d84d43b40571,一切运行良好。然而,当我尝试使用LSTM时,我得到了一个错误,提示如下:
logits和labels必须具有相同的第一维度,得到的logits形状为[32,186],而labels形状为[4704]
如何解决这个问题呢?
我的源数据集和目标数据集包含7200个样本句子。它们经过整数标记化和嵌入处理。源数据集在处理后填充以匹配目标数据集的长度。
以下是我的模型和相关代码:
lstm_model = Sequential()lstm_model.add(Embedding(src_vocab_size, 128, input_length=X.shape[1], input_shape=X.shape[1:]))lstm_model.add(LSTM(128, return_sequences=False, dropout=0.1, recurrent_dropout=0.1))lstm_model.add(Dense(128, activation='relu'))lstm_model.add(Dropout(0.5))lstm_model.add((Dense(target_vocab_size, activation='softmax')))lstm_model.compile(optimizer=Adam(0.002), loss='sparse_categorical_crossentropy', metrics=['accuracy'])history = lstm_model.fit(X, Y, batch_size = 32, callbacks=CALLBACK, epochs = 100, validation_split = 0.25) #在此行引发错误!
数据形状如下:
- X.shape = (7200, 147)
- Y.shape = (7200, 147, 1)
- src_vocab_size = 188
- target_vocab_size = 186
我已经查看了类似的提问并尝试添加一个Reshape层
simple_lstm_model.add(Reshape((-1,)))
但这只会导致以下错误:
“TypeError: __int__ returned non-int (type NoneType)”
这真的很奇怪,因为我对所有模型的数据集进行了相同的预处理,并且除了上述情况外一切正常。
回答:
您应该在调用LSTM构造函数时设置return_sequences=True
和return_state=False
。
在您的代码片段中,LSTM只返回其最后的状态,而不是每个输入嵌入的序列状态。从理论上讲,您本可以从错误消息中发现这一点:
logits和labels必须具有相同的第一维度,得到的logits形状为[32,186],而labels形状为[4704]
logits应该是三维的:批次大小 × 序列长度 × 类别数量。序列的长度是147,确实32 × 147 = 4704(您的labels数量)。这可以告诉您序列的长度消失了。