我使用下面的代码进行模型检查点的实验:
import numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras.callbacks import Callback, TensorBoard, ModelCheckpointdef get_model(): # 创建一个简单的模型。 inputs = keras.Input(shape=(32,)) outputs = keras.layers.Dense(1)(inputs) model = keras.Model(inputs, outputs) model.compile(optimizer = "adam", loss = "mean_squared_error") return model# 创建模型model = get_model()# 模型权重的检查点weights_filename = "weights/model_best_weights"checkpoint = ModelCheckpoint(weights_filename, monitor = 'loss', verbose = 1, save_best_only = True, save_weights_only = True, mode = 'auto', period = 1)# 训练模型。test_input = np.random.random((128, 32))test_target = np.random.random((128, 1))model.fit(test_input, test_target, verbose = 2, callbacks=[checkpoint])# 调用`save('my_model')`会创建一个SavedModel文件夹`my_model`。model.save("my_model")
在训练模型后,
WARNING:tensorflow:`period`参数已被弃用。请使用`save_freq`来指定批次数的频率。4/4 - 0s - loss: 4.5422Epoch 00001: loss从inf改进到4.54224,正在保存模型到weights/model_best_weightsINFO:tensorflow:Assets已写入到: my_model/assets
# 它可以用来重建相同的模型。reconstructed_model = keras.models.load_model("my_model")weights_filename = "weights/model_best_weights"reconstructed_model.load_weights(weights_filename) # 加载之前保存的权重# 这导致了新检查点创建的问题 --> 创建新检查点的问题checkpoint = ModelCheckpoint(weights_filename, monitor = 'loss', verbose = 1, save_best_only = True, save_weights_only = True, mode = 'auto', period = 1)
使用重新加载的模型在另一组数据上进行训练:
# 重建的模型已经编译并保留了优化器状态,因此可以继续训练:test_input = np.random.random((128, 32))test_target = np.random.random((128, 1))reconstructed_model.fit(test_input, test_target, verbose = 2, callbacks = [checkpoint])
损失值如下:
4/4 - 0s - loss: 3.8699 Epoch 00001: loss从inf改进到3.86991,正在保存模型到weights/model_best_weights
这里的问题是我再次实例化了一个ModelCheckpoint
以保存最佳权重检查点。
训练损失不应该从之前创建的最佳检查点开始吗?
回答:
好的,问题在于当你从ModelCheckpoint(Callback)
类创建一个实例时,它将监控参数设置为inf (-/+)
。这就是为什么当你第二次创建这个类的实例时,它会为监控参数设置这样的初始值。你可以在这里查看源代码 这里,这进一步导致了 这个 日志。
... if mode == 'min': self.monitor_op = np.less self.best = np.Inf elif mode == 'max': self.monitor_op = np.greater self.best = -np.Inf else: if 'acc' in self.monitor or self.monitor.startswith('fmeasure'): self.monitor_op = np.greater self.best = -np.Inf else: self.monitor_op = np.less self.best = np.Inf...