我想知道在Keras中Activation层和Dense层的区别是什么。
因为Activation层看起来像是一个全连接层,而Dense层有一个参数可以传递激活函数,那么最佳实践是什么?
让我们想象一个虚构的网络如下:输入 -> Dense -> Dropout -> 最终层。最终层应该是:Dense(activation=softmax) 还是 Activation(softmax)?哪种方式更简洁,为什么?
感谢大家!
回答:
使用 Dense(activation=softmax)
在计算上等同于先添加 Dense
然后再添加 Activation(softmax)
。然而,第二种方法有一个优势——你可以从这样定义的模型中检索到最后一层(激活之前)的输出。在第一种方法中,这是做不到的。