使用神经网络进行Q-Learning的问题

我已经按照以下文档实现了Q-Learning，

为了近似Q(S,A)，我使用了如下神经网络结构，

在每次学习迭代中使用以下公式，

enter image description here

我计算一个Q目标值，然后使用以下方法计算误差，

error = QTarget - LastQValueReturnedFromNN

并将误差通过神经网络进行反向传播。

问题1，我走在正确的轨道上吗？我看到一些论文中实现了一个输出神经元对应一个动作的神经网络。

问题2，我的奖励函数返回-1到1之间的数字。当激活函数是Sigmoid（0到1）时，返回-1到1之间的数字可以吗？

问题3，根据我对这个方法的理解，给定足够的训练实例，它应该能够找到最优策略权重？在训练XOR时，有时在2k次迭代后就能学会，有时即使经过40k到50k次迭代也学不会。

回答：

问题1。如果你将所有动作神经元放在输出层会更有效。一个前向传递就能给你那个状态的所有Q值。此外，神经网络将能够以更好的方式进行泛化。

问题2。Sigmoid通常用于分类。虽然你可以在其他层使用Sigmoid，但我不会在最后一层使用它。

问题3。嗯，使用神经网络的Q-Learning以不总是收敛而闻名。看看DQN（DeepMind）。他们解决了两个重要问题。他们通过使用记忆回放来去相关化训练数据。随机梯度下降不喜欢按顺序给出的训练数据。其次，他们使用旧权重进行自举。这样他们减少了非平稳性。

学技术