使用神经网络进行Q-Learning的问题

我已经按照以下文档实现了Q-Learning,

http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf

为了近似Q(S,A),我使用了如下神经网络结构,

  • 激活函数为Sigmoid
  • 输入层,包括输入数量加1个动作神经元(所有输入缩放至0-1)
  • 输出层,单一输出,Q值
  • N个M隐藏层
  • 探索方法为随机,0 < rand() < propExplore

在每次学习迭代中使用以下公式,

enter image description here

我计算一个Q目标值,然后使用以下方法计算误差,

error = QTarget - LastQValueReturnedFromNN

并将误差通过神经网络进行反向传播。

问题1,我走在正确的轨道上吗?我看到一些论文中实现了一个输出神经元对应一个动作的神经网络。

问题2,我的奖励函数返回-1到1之间的数字。当激活函数是Sigmoid(0到1)时,返回-1到1之间的数字可以吗?

问题3,根据我对这个方法的理解,给定足够的训练实例,它应该能够找到最优策略权重?在训练XOR时,有时在2k次迭代后就能学会,有时即使经过40k到50k次迭代也学不会。


回答:

问题1。如果你将所有动作神经元放在输出层会更有效。一个前向传递就能给你那个状态的所有Q值。此外,神经网络将能够以更好的方式进行泛化。

问题2。Sigmoid通常用于分类。虽然你可以在其他层使用Sigmoid,但我不会在最后一层使用它。

问题3。嗯,使用神经网络的Q-Learning以不总是收敛而闻名。看看DQN(DeepMind)。他们解决了两个重要问题。他们通过使用记忆回放来去相关化训练数据。随机梯度下降不喜欢按顺序给出的训练数据。其次,他们使用旧权重进行自举。这样他们减少了非平稳性。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注