似乎没有人会将模型运行到例如“10.5”个轮次。这是有什么理论上的原因吗?
如果我有一个完全独特的样本训练集,直觉上我认为在训练不足和过度训练之间的最佳拐点应该在完整轮次之间。然而,在大多数情况下,个别训练样本通常在某种程度上是相似的或相关的。
是否有基于统计学的坚实理由?或者,有人进行过实证调查吗?
回答:
我对前提持有异议:在我工作的地方,我们经常进行部分轮次的训练,尽管对于大型数据集来说,范围会更高,例如40.72个轮次。
对于小型数据集或短期训练,这是为了平等地对待每个观测值,因此自然会认为需要对每个样本进行相同次数的处理。正如你指出的,如果输入样本之间有关联,那么这样做的重要性就降低了。
我认为一个基本原因是方便:整数更容易理解和讨论。对于许多模型来说,训练的最佳点并没有明显的“拐点”:它是一个平缓的曲线,因此几乎可以肯定在准确度的“甜蜜点”内有一个整数轮次。因此,更方便地发现10个轮次比11个轮次稍好,即使最佳点(通过多次训练运行并在迭代次数上进行微小差异找到)恰好是10.2个轮次。边际效益递减表明,如果9到12个轮次给我们带来非常相似且良好的结果,我们只需注意到10个轮次在8到15个轮次的范围内表现最佳,接受结果,然后继续生活中的其他事情。