处理序列任务需要多少个RNN单元?

我正在训练一个RNN来执行以下任务:给定一个由三十个词组成的序列,然后将该序列分类为二元类别。

在我的网络中使用超过30个单元(LSTM、GRU或普通RNN)是否有好处?我在网上看到许多类似网络的例子,这些网络使用多个层,每层有100个单元,但这对我来说似乎没有意义。拥有比序列长度更多的单元有什么帮助?(在我这里,序列长度是30)

我感到困惑,因为根据我的理解,每个单元接受两个输入:1. 序列的一个新元素 2. 前一个单元的输出。因此,在30个单元之后,将没有新的序列元素可以输入到单元中。每个单元将只处理前一个单元的输出(不接收新的信息)。

我在这项任务中使用的是LSTM单元(然而,我猜测使用的RNN单元的实际类型并不重要)。

当GRU单元与我的序列长度相同

visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(30, return_sequences=True)(embed)print(np.shape(x2))

形状:

(?, 30)

(?, 30, 2)

(?, ?, 30)

当GRU单元与我的序列长度不相同

visible = Input(shape=(30,))print(np.shape(visible ))embed=Embedding(vocab_size,2)(visible)print(np.shape(embed ))x2=keras.layers.GRU(250, return_sequences=True)(embed)print(np.shape(x2))

形状:

(?, 30)

(?, 30, 2)

(?, ?, 250)

形状如何从(?, 30, 2)变为(?, ?, 250)(?, ?, 30)


回答:

你需要阅读一些关于RNN方程和keras文档的内容。GRU初始化器的第一个参数不是你使用的单元数量,而是隐藏状态的维度(或者,用Keras的奇怪术语来说,是单元)。

使用递归层的整个意义在于,你将通过反复应用相同的函数来折叠你的序列,这个函数由一个单一的* RNN单元具体化——如果你的序列的每个项目由不同的单元处理,那么其中就不会有任何递归。

为了更清楚地说明,RNN实现了一个函数 f: (x,h) → h。你给它序列的第一个项目,x0和一些预初始化的h-1,它会返回h0。然后你可以给同一个单元x1和h0,它会给你h1,以此类推。现在你正在调整的参数只是调整隐藏向量空间的大小;你仍然会得到与之前一样多的h向量(==你的输入序列长度),但现在这些h向量存在于ℝ250而不是ℝ30中。

* 在浅层RNN的情况下

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注