何时以及为何需要深度强化学习而不是Q学习?

我一直在研究强化学习,并且理解了价值/策略迭代、TD(…

强化学习、深度学习和深度强化学习之间有什么区别?

已关闭。这个问题需要更加聚焦。目前不接受回答。 想要改…

带有负向奖励的强化学习激活函数

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

我使用Python实现了VI(值迭代)、PI(策略迭代…

如何在强化学习(Q-learning)中添加约束

我想知道如何在Q-learning中添加约束。我每次采…

强化学习中相同状态的不同奖励

我想为Chrome的恐龙游戏(你可以在离线时玩的那个)…

Q-learning中的探索与利用

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

Q-learning中的迭代和奖励

已关闭。 该问题与编程或软件开发无关。目前不接受回答。…

用神经网络近似Q函数的奖励函数

在Q学习中,如果我的Q函数由一个标准的前馈神经网络近似…

Q-learning 更新频率

在Q-learning中,智能体从当前状态出发,在每个…

在深度Q学习算法中什么是phi

我正在尝试从零开始用Java制作一个学习型足球游戏,并…

Q-learning与动态规划

经典的Q-learning算法使用查找表(而不是函数近…

强化学习与深度强化学习的区别是什么?

深度强化学习与强化学习的区别是什么?我基本了解强化学习…

强化学习 – 智能体如何知道选择哪个动作?

我在尝试理解Q-Learning 基本的更新公式是: …

这是对跳棋游戏Q-Learning实现的正确方法吗?

我正在尝试理解Q-Learning, 我当前的算法运行…

如何在每次迭代后返回控制的强化学习程序中使用Tensorflow优化器而不重新计算激活值?

编辑(1/3/16): 相关GitHub问题 我正在使…

Q-learning与时间差分与基于模型的强化学习

我在大学里上了一门名为“智能机器”的课程。我们被介绍了…

在使用函数近似的Q学习中,是否可以避免手工制作特征?

我对机器学习的背景知识不多,如果我的问题看起来很傻,请…

Q-learning 没有最终状态是否可行?

我需要用 Q-learning 解决这个问题。实际上,…

最佳epsilon (ϵ-greedy)值

ϵ-greedy策略 我知道Q-learning算法应…

使用神经网络在线估计Q-表

当我在强化学习中使用Q-表来保存状态-动作时,有些状态…

在Q-learning中使用Boltzman探索策略处理超过两个动作的情况

我在Q-learning中使用Boltzman探索策略…

如何将强化学习应用于连续动作空间?

我正在尝试让一个智能体学习在强化学习环境中完成某项任务…

贝尔曼最优方程与Q-learning的关系

根据贝尔曼最优方程(见Sutton 2018年第63页…

Q-learning中的收敛标准

我正在尝试Q-learning算法。我已经阅读了不同的…