我正在构建一个CNN来对6个类别的50×50像素灰度图像进行分类(每个类别1400张)。在训练模型并评估损失和准确率后,一切似乎都运行良好,训练准确率约为98%,损失降至3.0,但当在测试数据上评估每个类别的模型时,模型的表现却大相径庭。我的类别是面部表情的图像:1)愤怒2)恐惧3)快乐4)中性5)悲伤6)惊讶
这是Jupyter笔记本:https://www.floydhub.com/arse123/projects/cnn-1/20/code/train_edge.ipynb
例如,当我为每个类别输入350张测试图像时,只有愤怒和惊讶类别会被预测。
TEST IMAGES RESULTS Angry - it classified 76 angry, and 273 surprise Fear - it classified 8 angry and 342 surprise Happy - 12 angry and 338 surprise Neutral - 350 surprise Sad - 22 angry and 328 surprise Surprise - a full 350/350 classified for this one..
显然,对愤怒和惊讶存在某种偏见,因为其他图像一次也没有被分类过。
当我在训练后运行acc.eval({x: test_images, y: test_labels, is_training : False})
(这是每个类别的2100张图像及其对应的标签)时,我得到了82%的准确率,所以我不知道这是怎么发生的。模型是否有可能一直在训练这两个类别?
@NOTE: 图像和标签是一热编码的,也进行了随机洗牌,实现了批量归一化
更新
我重新训练了模型,但它对不同的类别产生了同样的影响。这次它偏向于悲伤和惊讶,而不是愤怒和惊讶。以下是结果:
Angry - Sad 259 and surprise 75Fear - Sad 118 and surprise 218 (some classifications missing here for some reason)Happy - Sad 167 times and suprise 160 times (same again, missing some classifications)Neutral - sad 94 and surprise 249Sad - sad 211 and surprise 122Surprise - Sad 284 and surprise 52
回答:
代码中有一些问题,但最重要的是不知为何当is_training = False
时它表现得不好。如果你设置is_training = True
即使在不训练时,那么它会给出可接受的结果。所以训练是没问题的,但评估运行得不好。
为什么会这样,我现在无法回答,但这可能值得调查。
附上在Jupyter笔记本中修复的代码。我更改了一些小东西,比如你对已经Softmax的值再次进行了Softmax,修复了这个问题,将随机洗牌改为使用numpy,将测试图像的加载改为在加载时立即进行调整大小等等。还有很多调试打印,抱歉。:)
验证准确率为88%(训练准确率96.59%)看起来合理。(也改成了10个epoch。)