如果我们在WGAN中可以裁剪梯度,为什么还要使用WGAN-GP?

我正在研究WGAN,并希望实现WGAN-GP。

在其原始论文中,WGAN-GP因为1-利普希茨约束而采用了梯度惩罚。但是,像Keras这样的软件包可以将梯度范数裁剪到1(这在定义上等同于1-利普希茨约束),那么我们为什么还要对梯度进行惩罚呢?为什么不直接裁剪梯度呢?


回答:

原因是,从数学意义上讲,裁剪通常是一个相当严格的约束,而不是实现复杂性的意义。如果你查看原始的WGAN论文,你会注意到裁剪过程会输入模型的权重某个超参数c,它控制裁剪的范围。

如果c很小,那么权重将被严重裁剪到一个很小的值范围内。问题是如何确定一个合适的c值。这取决于你的模型、数据集、训练过程等等。那么为什么不尝试用软惩罚代替硬裁剪呢?这就是为什么WGAN-GP论文引入了对损失函数的额外约束,迫使梯度的范数尽可能接近1,避免硬性坍缩到预定义的值上。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注