在深度学习文献中,我遇到了许多使用堆叠RNN(堆叠LSTM)网络的例子。虽然单元本身的细节得到了探讨,但通常没有信息说明在堆叠架构中不同层是否共享权重。
我想了解的是,当作者没有明确说明时,默认行为是什么?我们应该假设他们在各层之间共享了权重吗?还是每层都有自己的一套权重用于其单元?
回答:
假设是每层都有自己的一套权重。参见此处第4页的方程(1)和(2)。如你所见,权重依赖于层(那里的方程处理的是普通RNN,但LSTM也采用相同的假设)。
在深度学习文献中,我遇到了许多使用堆叠RNN(堆叠LSTM)网络的例子。虽然单元本身的细节得到了探讨,但通常没有信息说明在堆叠架构中不同层是否共享权重。
我想了解的是,当作者没有明确说明时,默认行为是什么?我们应该假设他们在各层之间共享了权重吗?还是每层都有自己的一套权重用于其单元?
回答:
假设是每层都有自己的一套权重。参见此处第4页的方程(1)和(2)。如你所见,权重依赖于层(那里的方程处理的是普通RNN,但LSTM也采用相同的假设)。