假设你有一个深度神经网络,用于回归问题来预测一个人的体重。你的神经网络结构如下:
Dense(112, activation='relu')Dense(512, activation='relu)Dropout(0.5)Dense(1, activation='relu')
现在,在训练过程中,假设50%的节点会根据输入产生大约30到100的输出。在测试时,当不使用dropout时,输出不会因为之前只有50%的节点活跃而导致输出翻倍吗?因为之前只有50%的节点在传递值到输出节点,我们得到了大约30到100的输出,而在测试时,所有节点都活跃,所有节点都在向输出节点传递值。所以,如果50%的节点产生了大约30到100的输出,在测试时100%的节点活跃时,这个值不会翻倍吗?
回答:
正如@人名在评论中所说,dropout有一个功能(乘以p),可以防止我提出的这个问题。
如果一个单元以概率p被保留,那么在测试时,这个单元的所有权重首先会被乘以p。
所以,在我提到的预测体重的例子中,dropout层之后的所有权重首先会被乘以p(在本例中是0.5),使得测试输出的结果与训练输出相同,仍然是大约30到100,从而解决了这个问题!