我正在使用以下代码在Keras中训练一个用于NLP任务的简单模型。变量名称对训练、测试和验证集都是自解释的。这个数据集有19个类别,因此网络的最后一层有19个输出。标签也是一热编码的。
nb_classes = 19model1 = Sequential()model1.add(Embedding(nb_words, EMBEDDING_DIM, weights=[embedding_matrix], input_length=MAX_SEQUENCE_LENGTH, trainable=False))model1.add(LSTM(num_lstm, dropout=rate_drop_lstm, recurrent_dropout=rate_drop_lstm))model1.add(Dropout(rate_drop_dense))model1.add(BatchNormalization())model1.add(Dense(num_dense, activation=act))model1.add(Dropout(rate_drop_dense))model1.add(BatchNormalization())model1.add(Dense(nb_classes, activation = 'sigmoid'))model1.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])#One hot encode all labelsytrain_enc = np_utils.to_categorical(train_labels)yval_enc = np_utils.to_categorical(val_labels)ytestenc = np_utils.to_categorical(test_labels)model1.fit(train_data, ytrain_enc, validation_data=(val_data, yval_enc), epochs=200, batch_size=384, shuffle=True, verbose=1)
在第一个epoch之后,输出如下:
Epoch 1/200216632/216632 [==============================] - 2442s - loss: 0.1427 - acc: 0.9443 - val_loss: 0.0526 - val_acc: 0.9826
然后我在测试数据集上评估我的模型,结果显示准确率约为0.98。
model1.evaluate(test_data, y = ytestenc, batch_size=384, verbose=1)
然而,由于标签是一热编码的,我需要类别的预测向量,以便生成混淆矩阵等。因此,我使用了以下代码:
PREDICTED_CLASSES = model1.predict_classes(test_data, batch_size=384, verbose=1)temp = sum(test_labels == PREDICTED_CLASSES)temp/len(test_labels)0.83
这显示总的预测类别准确率为83%,然而model1.evaluate
显示98%的准确率!!我在这里做错了什么?我的损失函数对分类标签合适吗?我选择的预测层sigmoid
激活函数合适吗?还是Keras评估模型的方式有所不同?请建议可能出错的地方。这是我的第一次尝试建立深度模型,所以我对这里的问题没有太多理解。
回答:
我已经找到了问题所在。metrics=['accuracy']
会根据成本函数自动计算准确率。因此,使用binary_crossentropy
显示的是二元准确率,而不是分类准确率。使用categorical_crossentropy
会自动切换到分类准确率,现在它与使用model1.predict()
手动计算的结果相同。@Yu-Yang 正确地指出了多类别问题中成本函数和激活函数的问题。
附注:可以通过使用metrics=['binary_accuracy', 'categorical_accuracy']
来同时获取分类和二元准确率