我正在尝试训练一个用于密集预测的全卷积网络(FCN)。
论文的作者在论文中提到:
“我们将2倍上采样初始化为双线性插值,但允许参数被学习。”
当我阅读他们的训练 prototxt 文件时,发现这些层的学习倍数设置为零。
我是否应该将这个学习倍数改为非零值,以便让这些层被学习?
谢谢,
回答:
引用 shelhamer 的话:
在对 PASCAL VOC 的进一步实验中我们发现,学习插值参数几乎没有影响,而固定这些权重可以稍微加速,因为可以跳过插值滤波器的梯度计算。
因此,你可以保持lr_mult
不变,或者如果希望它们学习的话,将其更改为非零值。你也可以在 solver.prototxt 中设置lr_policy
,如果有需要的话。