为什么在TensorFlow中tf.nn.dropout会对输入进行缩放？

我无法理解为什么TensorFlow中的dropout会这样工作。CS231n的博客提到，"dropout通过以某个概率p（一个超参数）保持神经元活跃，或者将其设为零来实现。"你也可以从图片中看到这一点（图片来自同一网站）

根据TensorFlow的网站，以keep_prob的概率输出输入元素，并将其放大1 / keep_prob，否则输出0。

那么，为什么输入元素要被放大1/keep_prob呢？为什么不保持输入元素原样并以一定概率输出，而不进行1/keep_prob的缩放呢？

回答：

这种缩放使得同一个网络可以用于训练（keep_prob < 1.0）和评估（keep_prob == 1.0）。从Dropout论文中可以看到：

这个想法是在测试时使用一个没有dropout的单一神经网络。这个网络的权重是训练权重的缩小版本。如果一个单元在训练期间以概率p被保留，那么在测试时该单元的输出权重将乘以p，如图2所示。

TensorFlow的实现并不是在测试时添加操作来将权重缩小keep_prob，而是在训练时添加操作来将权重放大1. / keep_prob。这种方法对性能的影响可以忽略不计，并且代码更简单（因为我们使用相同的图，并将keep_prob视为一个tf.placeholder()，根据我们是训练还是评估网络而输入不同的值）。

学技术

为什么在TensorFlow中tf.nn.dropout会对输入进行缩放？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复