选择每轮的步数

如果我想用train_generator训练模型,选择以下两种方式有显著差异吗?

  • 每轮10次,每次500步

  • 每轮100次,每次50步

目前我正在进行10轮的训练,因为每轮耗时较长,但任何显示改进的图表看起来非常“跳跃”,因为我只有10个数据点。我想如果使用100轮,图表会更平滑,但我首先想知道这样做是否有任何不利之处


回答:

根据你所说,听起来你需要一个更大的batch_size,当然这会对steps_per_epoch和轮数产生影响。

解决跳跃问题

  • 更大的批量大小会给你更好的梯度,并有助于防止跳跃
  • 你可能还需要考虑一个较小的学习率,或者使用学习率调度器(或衰减),让网络在训练时能够“安定下来”

更大批量大小的影响

  • 批量大小过大会导致内存问题,特别是如果你使用的是GPU。一旦超出限制,就将其调低直到它能正常工作。这将帮助你找到系统可以处理的最大批量大小。
  • 批量大小过大会使你陷入局部最小值,所以如果你的训练卡住了,我会适当减少它。想象一下,你在这里过度纠正了跳跃,它没有足够的跳跃来进一步最小化损失函数。

何时减少轮数

  • 如果你的训练误差非常低,而你的测试/验证误差却非常高,那么你已经用过多的轮数使模型过拟合了。
  • 找到正确平衡的最佳方法是使用带验证测试集的早期停止。在这里,你可以指定何时停止训练,并保存给你带来最佳验证损失的网络权重。(我强烈推荐始终使用这种方法)

何时调整每轮步数

  • 传统上,每轮的步数计算为train_length // batch_size,因为这将使用所有数据点,一次一个批量大小。
  • 如果你在增强数据,那么你可以稍微延长这一点(有时我会将上述函数乘以2或3等。但是,如果训练时间已经太长了,那么我会坚持使用传统方法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注