我有一个包含41258张RGB图像的数据集,其形状为:(320, 320, 3)。标签是42个3D坐标,因此每张图像有126个标签。标签的形状为(42, 3),但被重塑为(-1, 126)。标签的值在-1到1之间,而图像被归一化到0到1之间。
我在使用带有GPU的Google Colab时,发生了以下情况:
Epoch 1/10 1/103 [..............................] - ETA: 0s - loss: 0.0985 - mae: 0.2258 - mse: 0.0985WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0099s vs `on_train_batch_end` time: 0.0372s). Check your callbacks.103/103 [==============================] - 4s 39ms/step - loss: 0.0903 - mae: 0.2063 - mse: 0.0903Epoch 2/10103/103 [==============================] - 4s 39ms/step - loss: 0.0799 - mae: 0.1872 - mse: 0.0799Epoch 3/10103/103 [==============================] - 4s 39ms/step - loss: 0.0800 - mae: 0.1864 - mse: 0.0800Epoch 4/10103/103 [==============================] - 4s 39ms/step - loss: 0.0803 - mae: 0.1864 - mse: 0.0803Epoch 5/10103/103 [==============================] - 4s 41ms/step - loss: 0.0777 - mae: 0.1807 - mse: 0.0777Epoch 6/10103/103 [==============================] - 4s 39ms/step - loss: 0.0774 - mae: 0.1795 - mse: 0.0774Epoch 7/10103/103 [==============================] - 4s 40ms/step - loss: 0.0776 - mae: 0.1798 - mse: 0.0776
第一个epoch只有一个步骤,然后就重新开始了epoch。
我尝试使用CPU,一切正常,只有在使用GPU时才会出现这种情况。
我无法一次训练整个数据集,所以我分批进行,并且需要多次调用fit。问题总是在所有第一个epoch中发生。
回答:
这不是错误——只是因为警告而导致输出控制台的一个小格式变化。你可以看到在
1/103 [..............................]
下面,epoch的其余部分在第二行继续
103/103 [==============================]
然后第二个epoch开始。如果你每次查看Epoch的公告位置,会更容易阅读。我经常看到这种情况,起初我也感到困惑。