在进行VGG迁移学习时,训练损失保持不变而验证损失大幅波动

在使用大量数据和以下配置进行VGG迁移学习时:

base_big_3 = tf.keras.applications.VGG19(include_top=False, weights='imagenet',input_shape=[IMG_SIZE,IMG_SIZE,3])model_big_3 = tf.keras.Sequential()model_big_3.add(base_big_3)model_big_3.add(BatchNormalization(axis=-1))model_big_3.add(GlobalAveragePooling2D())model_big_3.add(Dense(5, activation='softmax'))model_big_3.compile(loss=tf.keras.losses.CategoricalCrossentropy(), optimizer=tf.keras.optimizers.Adamax(learning_rate=0.01), metrics=['acc'])history = model_big_3.fit(      train_generator,      steps_per_epoch=BATCH_SIZE,      epochs=100,      validation_data=valid_generator,      batch_size=BATCH_SIZE      )

训练损失和验证损失的变化如下,其中训练损失始终保持不变,而验证损失最初急剧上升,随后保持不变:

loss graph

我尝试过的方法

  1. 我逐一尝试了这里提供的解决方案,并将学习率从0.01降低到0.0001。这次,训练损失确实略有下降,但验证误差仍然非常波动。训练损失和验证损失的变化如下:

loss curve

  1. 上述解决方案链接还建议对输入进行归一化,但我认为图像不需要归一化,因为数据变化不大,而且VGG网络已经有批归一化,请纠正我如果我错了。请指出导致这种行为的原因,配置中需要更改什么以及如何改进训练?

回答:

我注意到你设置了steps_per_epoch = BATCH_SIZE。假设你有3200个训练样本且BATCH_SIZE=32。要遍历所有训练样本,你需要处理3200/32=100个批次。但设置steps_per_epoch=BATCH_SIZE=32,你在一个epoch中只处理了1024个样本。应将steps_per_epoch设置为

steps_per_epoch =number_of_train samples//BATCH_SIZE

其中BATCH_SIZE是你指定给生成器的值。或者你可以将其设置为None,让model.fit内部确定正确的值。如这里的model.fit文档中所述,

如果你的数据是以数据集、生成器或keras.utils.Sequence实例形式存在,则不要指定batch_size(因为它们会生成批次)。 

由于你在model.fit中使用了train_generator,我假设这是一个生成器。VGG模型是在imagenet图像上训练的,这些图像的像素值被重新调整到-1到+1的范围内。因此,你应该在输入管道中的某个地方重新调整图像的尺寸。例如,image=image/127.5-1 就可以完成这项工作。你使用了什么BATCH_SIZE?在内存大小允许的范围内增大它可能会帮助平滑波动。我还建议你使用两个keras回调,EarlyStopping和ReduceLROnPlateau。文档在这里。将它们设置为监控验证损失。我建议的代码如下

estop=tf.keras.callbacks.EarlyStopping(monitor="val_loss",patience=4,verbose=1,                                         restore_best_weights=True)rlronp=tf.keras.callbacks.ReduceLROnPlateau( monitor="val_loss", factor=0.5,                                       patience=2, verbose=1)callbacks=[estop, rlronp]    # in model.fit add callbacks=callbacks

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注