处理序列任务需要多少个RNN单元？

我正在训练一个RNN来执行以下任务：给定一个由三十个词组成的序列，然后将该序列分类为二元类别。

在我的网络中使用超过30个单元（LSTM、GRU或普通RNN）是否有好处？我在网上看到许多类似网络的例子，这些网络使用多个层，每层有100个单元，但这对我来说似乎没有意义。拥有比序列长度更多的单元有什么帮助？（在我这里，序列长度是30）

我感到困惑，因为根据我的理解，每个单元接受两个输入：1. 序列的一个新元素 2. 前一个单元的输出。因此，在30个单元之后，将没有新的序列元素可以输入到单元中。每个单元将只处理前一个单元的输出（不接收新的信息）。

我在这项任务中使用的是LSTM单元（然而，我猜测使用的RNN单元的实际类型并不重要）。

当GRU单元与我的序列长度相同

visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(30, return_sequences=True)(embed)print(np.shape(x2))

形状：

(?, 30)

(?, 30, 2)

(?, ?, 30)

当GRU单元与我的序列长度不相同

visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(250, return_sequences=True)(embed)print(np.shape(x2))

形状：

(?, 30)

(?, 30, 2)

(?, ?, 250)

形状如何从(?, 30, 2)变为(?, ?, 250)或(?, ?, 30)？

回答：

你需要阅读一些关于RNN方程和keras文档的内容。GRU初始化器的第一个参数不是你使用的单元数量，而是隐藏状态的维度（或者，用Keras的奇怪术语来说，是单元）。

使用递归层的整个意义在于，你将通过反复应用相同的函数来折叠你的序列，这个函数由一个单一的* RNN单元具体化——如果你的序列的每个项目由不同的单元处理，那么其中就不会有任何递归。

为了更清楚地说明，RNN实现了一个函数 f: (x,h) → h。你给它序列的第一个项目，x₀和一些预初始化的h_-1，它会返回h₀。然后你可以给同一个单元x₁和h₀，它会给你h₁，以此类推。现在你正在调整的参数只是调整隐藏向量空间的大小；你仍然会得到与之前一样多的h向量（==你的输入序列长度），但现在这些h向量存在于ℝ²⁵⁰而不是ℝ³⁰中。

* 在浅层RNN的情况下

学技术

处理序列任务需要多少个RNN单元？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复