我在使用Python和Tensorflow进行对象检测。
我想开始训练并暂时离开,同时保留所有训练节点(模型-cpk)。标准的Tensorflow训练似乎会删除节点,只保留最后几个节点。我该如何防止这种情况发生?
如果这里不是提问的正确地点,请原谅我。如果能告诉我一个合适的地方,我将不胜感激。谢谢你。
回答:
你可以在model_main.py
中的tf.estimator.RunConfig
使用keep_checkpoint_max
标志。你可以将其设置为一个非常大的数字,以便实际保存所有检查点。不过要注意,根据模型大小和保存频率,这可能会填满你的磁盘(因此可能会在训练过程中崩溃)。你可以通过RunConfig
的save_checkpoints_steps
或save_checkpoints_secs
标志来更改保存频率。默认使用save_checkpoints_secs
,默认值为600(10分钟)。