我对fit
和fit_generator
方法中的initial_epoch
值有点困惑。这里是文档的说明:
initial_epoch:整数。从哪个轮次开始训练(用于恢复之前的训练)。
我理解,如果你从头开始训练,它没有用处。如果你已经训练了数据集并且想提高准确率或其他值,它是有用的(如果我错了,请纠正我)。但我不确定它到底做了什么。
综上所述,我有两个问题:
initial_epoch
做什么用的,它的作用是什么?- 我什么时候可以使用
initial_epoch
?
- 当我更改数据集时?
- 当我更改学习率、优化器或损失函数时?
- 两种情况都适用?
回答:
由于在一些优化器中,它们的一些内部值(例如学习率)是根据当前epoch
值设置的,或者你可能有(自定义的)回调函数依赖于epoch
的当前值,initial_epoch
参数允许你指定开始训练时的epoch
初始值。
正如文档中所述,这在你已经训练了模型若干轮次,比如10轮,然后保存它,现在你想加载它并继续训练另外10轮时而不打扰依赖于轮次的对象(例如优化器)的状态非常有用。所以你会设置initial_epoch=10
(即我们已经训练了模型10轮),并设置epochs=20
(不是10,因为要达到的总轮次是20),然后一切都会像你在一开始就训练了模型20轮那样继续进行。
然而,请注意,当使用Keras的内置优化器时,你不需要使用initial_epoch
,因为它们内部存储并更新它们的状态(不考虑当前轮次的值),并且在保存模型时,优化器的状态也会被存储。