如果我们在神经网络中使用过多的隐藏层,会有什么问题吗?谁能简单描述一下如果隐藏层过多会出现哪些问题。
回答:
最重要的问题是所谓的“梯度消失现象”,无论是理论上还是实践上都很容易验证,在传统的反向传播算法中(假设没有使用深度学习/新认知机/卷积网络),训练超过一个隐藏层是非常低效的,因为计算出的梯度/导数会越来越平滑。随着每增加一层,错误的“责任”就越来越难以追溯。
过拟合(如@人名错误地指出)并不是这里的主要问题,因为同样的问题会来自于隐藏单元的数量(实际上,通过增加一个隐藏层中的单元数量比增加隐藏层的数量更容易发生这种情况)。