我在尝试训练一个非常大的模型。因此,我只能在GPU内存中容纳非常小的批次大小。使用小批次大小会导致梯度估计非常嘈杂。
我该如何避免这个问题?
回答:
你可以在求解器参数中更改iter_size
。Caffe会在每个随机梯度下降步骤中累积iter_size
x batch_size
个实例的梯度。因此,当由于内存限制无法使用大批次大小时,增加iter_size
也可以获得更稳定的梯度。
我在尝试训练一个非常大的模型。因此,我只能在GPU内存中容纳非常小的批次大小。使用小批次大小会导致梯度估计非常嘈杂。
我该如何避免这个问题?
回答:
你可以在求解器参数中更改iter_size
。Caffe会在每个随机梯度下降步骤中累积iter_size
x batch_size
个实例的梯度。因此,当由于内存限制无法使用大批次大小时,增加iter_size
也可以获得更稳定的梯度。