如何解决”logits和labels必须具有相同的第一维度”错误

我正在尝试不同的神经网络架构来处理基于词的自然语言处理任务。

到目前为止,我已经使用了双向、嵌入和基于GRU的模型,这些都是根据这个教程指导的:https://towardsdatascience.com/language-translation-with-rnns-d84d43b40571,一切运行良好。然而,当我尝试使用LSTM时,我得到了一个错误,提示如下:

logits和labels必须具有相同的第一维度,得到的logits形状为[32,186],而labels形状为[4704]

如何解决这个问题呢?

我的源数据集和目标数据集包含7200个样本句子。它们经过整数标记化和嵌入处理。源数据集在处理后填充以匹配目标数据集的长度。

以下是我的模型和相关代码:

lstm_model = Sequential()lstm_model.add(Embedding(src_vocab_size, 128, input_length=X.shape[1], input_shape=X.shape[1:]))lstm_model.add(LSTM(128, return_sequences=False, dropout=0.1, recurrent_dropout=0.1))lstm_model.add(Dense(128, activation='relu'))lstm_model.add(Dropout(0.5))lstm_model.add((Dense(target_vocab_size, activation='softmax')))lstm_model.compile(optimizer=Adam(0.002), loss='sparse_categorical_crossentropy', metrics=['accuracy'])history = lstm_model.fit(X, Y, batch_size = 32, callbacks=CALLBACK, epochs = 100, validation_split = 0.25) #在此行引发错误!

数据形状如下:

  • X.shape = (7200, 147)
  • Y.shape = (7200, 147, 1)
  • src_vocab_size = 188
  • target_vocab_size = 186

我已经查看了类似的提问并尝试添加一个Reshape层

simple_lstm_model.add(Reshape((-1,)))

但这只会导致以下错误:

“TypeError: __int__ returned non-int (type NoneType)”

这真的很奇怪,因为我对所有模型的数据集进行了相同的预处理,并且除了上述情况外一切正常。


回答:

您应该在调用LSTM构造函数时设置return_sequences=Truereturn_state=False

在您的代码片段中,LSTM只返回其最后的状态,而不是每个输入嵌入的序列状态。从理论上讲,您本可以从错误消息中发现这一点:

logits和labels必须具有相同的第一维度,得到的logits形状为[32,186],而labels形状为[4704]

logits应该是三维的:批次大小 × 序列长度 × 类别数量。序列的长度是147,确实32 × 147 = 4704(您的labels数量)。这可以告诉您序列的长度消失了。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注