我正在研究WGAN,并希望实现WGAN-GP。
在其原始论文中,WGAN-GP因为1-利普希茨约束而采用了梯度惩罚。但是,像Keras这样的软件包可以将梯度范数裁剪到1(这在定义上等同于1-利普希茨约束),那么我们为什么还要对梯度进行惩罚呢?为什么不直接裁剪梯度呢?
回答:
原因是,从数学意义上讲,裁剪通常是一个相当严格的约束,而不是实现复杂性的意义。如果你查看原始的WGAN论文,你会注意到裁剪过程会输入模型的权重和某个超参数c,它控制裁剪的范围。
如果c很小,那么权重将被严重裁剪到一个很小的值范围内。问题是如何确定一个合适的c值。这取决于你的模型、数据集、训练过程等等。那么为什么不尝试用软惩罚代替硬裁剪呢?这就是为什么WGAN-GP论文引入了对损失函数的额外约束,迫使梯度的范数尽可能接近1,避免硬性坍缩到预定义的值上。