我在看到神经网络应用的所有例子或案例中都有一个共同点——它们在特定层的所有节点中使用特定类型的激活函数。
据我所知,每个节点使用非线性激活函数来学习数据中的特定模式。如果是这样的话,为什么不使用多种类型的激活函数呢?
我确实找到了一条链接,基本上说,如果我们每层只使用一种激活函数,管理网络会更容易。还有其他好处吗?
回答:
激活函数的目的是向神经网络引入非线性。请参阅这个答案,了解为什么没有非线性,我们的深度神经网络实际上不会是深度的更多见解。
激活函数通过控制神经元的输出完成它们的任务。有时它们提供一个简单的阈值,如ReLU所做的那样,可以编写为以下代码:
if input > 0: return inputelse: return 0
而其他时候,它们以更复杂的方式行为,例如tanh(x)
或sigmoid(x)
。请参阅这个答案,了解更多关于不同类型的激活信息。
我还想补充一点,我同意@Joe的观点,激活函数并不学习特定模式,它影响神经网络学习多种模式的方式。每种激活函数对输出都有其独特的效果。
因此,在单一层中不使用多种激活函数的一个好处是它们的效果的可预测性。我们知道ReLU或Sigmoid对卷积滤波器的输出做了什么。但是我们知道它们级联使用的效果吗?顺便说一下,ReLU是先用的,还是我们最好先用Sigmoid?这重要吗?
如果我们想从激活函数的组合中受益,所有这些问题(也许还有更多)都需要用科学证据来回答。需要进行繁琐的实验和评估才能获得一些有意义的结果。只有在那之后,我们才知道使用它们意味着什么,然后,也许会出现一种新类型的激活函数,并且会有一个新名称来称呼它。