dropout with relu activations

我正在尝试在TensorFlow中实现一个带有dropout的神经网络。

tf.layers.dropout(inputs, rate, training)

根据文档说明:

Dropout在训练过程中随机将输入单元的一定比例设为0,这有助于防止过拟合。保留的单元会被缩放1 / (1 – rate),因此在训练和推理时它们的总和保持不变。

我理解如果dropout应用于严格大于零的sigmoid激活函数上,这种行为是合理的。如果一半的输入单元被设为零,所有输出的总和也会减半,因此通过2倍的因子进行缩放以在进入下一层之前恢复某种一致性是合理的。

那么,如果使用以零为中心的tanh激活函数呢?上述推理不再成立,那么用上述因子缩放dropout的输出是否仍然有效?有没有办法阻止TensorFlow的dropout缩放输出?


回答:

如果一个节点有一组输入和一组权重,它们的加权和是一个值,S。你可以通过选择原始随机变量的随机分数f来定义另一个随机变量。使用相同权重的这种方式定义的随机变量的加权和是S * f。从这里可以看出,如果目标是加权和的均值在缩放前后保持不变,那么重新缩放的论据是精确的。当激活函数在加权和子集的范围内是线性时这是正确的,如果激活函数在大致范围内是线性的大致正确。

经过任何非线性激活函数处理后的线性组合,不再是重新缩放完全保留预期均值。然而,如果对一个节点的贡献不是由少数节点主导,随机选择的子集的和的方差相对较小,如果激活函数在大致接近输出值的地方是大致线性的,重新缩放将很好地产生大致相同均值的输出。例如,logistic和tanh函数在任何小区域内都是大致线性的。注意,函数的范围无关紧要,仅其值之间的差异才重要。

对于relu激活,如果原始加权和足够接近零,以至于子集的加权和位于零的两侧,即激活函数的一个不可微点,重新缩放效果不会很好,但这种情况相对罕见且仅限于较小的输出,因此可能不是一个大问题。

这里的主要观察是,重新缩放在大量节点做出显著贡献时效果最佳,并且依赖于激活函数的局部近似线性。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注