如果我想用train_generator训练模型,选择以下两种方式有显著差异吗?
- 每轮10次,每次500步
和
- 每轮100次,每次50步
目前我正在进行10轮的训练,因为每轮耗时较长,但任何显示改进的图表看起来非常“跳跃”,因为我只有10个数据点。我想如果使用100轮,图表会更平滑,但我首先想知道这样做是否有任何不利之处
回答:
根据你所说,听起来你需要一个更大的batch_size
,当然这会对steps_per_epoch和轮数产生影响。
解决跳跃问题
- 更大的批量大小会给你更好的梯度,并有助于防止跳跃
- 你可能还需要考虑一个较小的学习率,或者使用学习率调度器(或衰减),让网络在训练时能够“安定下来”
更大批量大小的影响
- 批量大小过大会导致内存问题,特别是如果你使用的是GPU。一旦超出限制,就将其调低直到它能正常工作。这将帮助你找到系统可以处理的最大批量大小。
- 批量大小过大会使你陷入局部最小值,所以如果你的训练卡住了,我会适当减少它。想象一下,你在这里过度纠正了跳跃,它没有足够的跳跃来进一步最小化损失函数。
何时减少轮数
- 如果你的训练误差非常低,而你的测试/验证误差却非常高,那么你已经用过多的轮数使模型过拟合了。
- 找到正确平衡的最佳方法是使用带验证测试集的早期停止。在这里,你可以指定何时停止训练,并保存给你带来最佳验证损失的网络权重。(我强烈推荐始终使用这种方法)
何时调整每轮步数
- 传统上,每轮的步数计算为train_length // batch_size,因为这将使用所有数据点,一次一个批量大小。
- 如果你在增强数据,那么你可以稍微延长这一点(有时我会将上述函数乘以2或3等。但是,如果训练时间已经太长了,那么我会坚持使用传统方法。