我正在训练一个RNN来执行以下任务:给定一个由三十个词组成的序列,然后将该序列分类为二元类别。
在我的网络中使用超过30个单元(LSTM、GRU或普通RNN)是否有好处?我在网上看到许多类似网络的例子,这些网络使用多个层,每层有100个单元,但这对我来说似乎没有意义。拥有比序列长度更多的单元有什么帮助?(在我这里,序列长度是30)
我感到困惑,因为根据我的理解,每个单元接受两个输入:1. 序列的一个新元素 2. 前一个单元的输出。因此,在30个单元之后,将没有新的序列元素可以输入到单元中。每个单元将只处理前一个单元的输出(不接收新的信息)。
我在这项任务中使用的是LSTM单元(然而,我猜测使用的RNN单元的实际类型并不重要)。
当GRU单元与我的序列长度相同
visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(30, return_sequences=True)(embed)print(np.shape(x2))
形状:
(?, 30)
(?, 30, 2)
(?, ?, 30)
当GRU单元与我的序列长度不相同
visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(250, return_sequences=True)(embed)print(np.shape(x2))
形状:
(?, 30)
(?, 30, 2)
(?, ?, 250)
形状如何从(?, 30, 2)
变为(?, ?, 250)
或(?, ?, 30)
?
回答:
你需要阅读一些关于RNN方程和keras文档的内容。GRU初始化器的第一个参数不是你使用的单元数量,而是隐藏状态的维度(或者,用Keras的奇怪术语来说,是单元)。
使用递归层的整个意义在于,你将通过反复应用相同的函数来折叠你的序列,这个函数由一个单一的* RNN单元具体化——如果你的序列的每个项目由不同的单元处理,那么其中就不会有任何递归。
为了更清楚地说明,RNN实现了一个函数 f: (x,h) → h。你给它序列的第一个项目,x0和一些预初始化的h-1,它会返回h0。然后你可以给同一个单元x1和h0,它会给你h1,以此类推。现在你正在调整的参数只是调整隐藏向量空间的大小;你仍然会得到与之前一样多的h向量(==你的输入序列长度),但现在这些h向量存在于ℝ250而不是ℝ30中。
* 在浅层RNN的情况下