选择每轮的步数

如果我想用train_generator训练模型,选择以下两种方式有显著差异吗?

  • 每轮10次,每次500步

  • 每轮100次,每次50步

目前我正在进行10轮的训练,因为每轮耗时较长,但任何显示改进的图表看起来非常“跳跃”,因为我只有10个数据点。我想如果使用100轮,图表会更平滑,但我首先想知道这样做是否有任何不利之处


回答:

根据你所说,听起来你需要一个更大的batch_size,当然这会对steps_per_epoch和轮数产生影响。

解决跳跃问题

  • 更大的批量大小会给你更好的梯度,并有助于防止跳跃
  • 你可能还需要考虑一个较小的学习率,或者使用学习率调度器(或衰减),让网络在训练时能够“安定下来”

更大批量大小的影响

  • 批量大小过大会导致内存问题,特别是如果你使用的是GPU。一旦超出限制,就将其调低直到它能正常工作。这将帮助你找到系统可以处理的最大批量大小。
  • 批量大小过大会使你陷入局部最小值,所以如果你的训练卡住了,我会适当减少它。想象一下,你在这里过度纠正了跳跃,它没有足够的跳跃来进一步最小化损失函数。

何时减少轮数

  • 如果你的训练误差非常低,而你的测试/验证误差却非常高,那么你已经用过多的轮数使模型过拟合了。
  • 找到正确平衡的最佳方法是使用带验证测试集的早期停止。在这里,你可以指定何时停止训练,并保存给你带来最佳验证损失的网络权重。(我强烈推荐始终使用这种方法)

何时调整每轮步数

  • 传统上,每轮的步数计算为train_length // batch_size,因为这将使用所有数据点,一次一个批量大小。
  • 如果你在增强数据,那么你可以稍微延长这一点(有时我会将上述函数乘以2或3等。但是,如果训练时间已经太长了,那么我会坚持使用传统方法。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注