这是对跳棋游戏Q-Learning实现的正确方法吗?

我正在尝试理解Q-Learning, 我当前的算法运行…

如何在每次迭代后返回控制的强化学习程序中使用Tensorflow优化器而不重新计算激活值?

编辑(1/3/16): 相关GitHub问题 我正在使…

Q-learning与时间差分与基于模型的强化学习

我在大学里上了一门名为“智能机器”的课程。我们被介绍了…

在使用函数近似的Q学习中,是否可以避免手工制作特征?

我对机器学习的背景知识不多,如果我的问题看起来很傻,请…

Q-learning 没有最终状态是否可行?

我需要用 Q-learning 解决这个问题。实际上,…

最佳epsilon (ϵ-greedy)值

ϵ-greedy策略 我知道Q-learning算法应…

使用神经网络在线估计Q-表

当我在强化学习中使用Q-表来保存状态-动作时,有些状态…

在Q-learning中使用Boltzman探索策略处理超过两个动作的情况

我在Q-learning中使用Boltzman探索策略…

如何将强化学习应用于连续动作空间?

我正在尝试让一个智能体学习在强化学习环境中完成某项任务…

贝尔曼最优方程与Q-learning的关系

根据贝尔曼最优方程(见Sutton 2018年第63页…

Q-learning中的收敛标准

我正在尝试Q-learning算法。我已经阅读了不同的…

训练神经网络以真实受试者的输入/输出为基础,使其行为类似于受试者

目标是创建一个AI来玩一个简单的游戏,跟踪屏幕上水平移…

如何将此代码改为使用Q表进行强化学习

我正在学习Q表,并尝试了一个简单的版本,该版本仅使用一…

深度Q网络中的Q-Learning方程

我对强化学习完全是新手,所以我可能会有错。 我的问题是…

策略梯度方法与基于神经网络的动作价值方法之间有什么区别?

策略梯度方法与基于神经网络的动作价值方法之间有什么区别…

如何不变的奖励帮助训练?

我是机器学习的新手,正在尝试使用Q-learning解…

关于Q学习中“情节”定义的困惑

在阅读了一些教程后,我仍然不确定“情节”的定义。情节是…

强化学习中奖励政策的重要性是什么?

我们为达到目标设定+1的奖励,而为达到不希望的状态设定…

如何从另一个数组索引到TensorFlow张量中

我正在尝试为人工智能问题编写一个深度Q学习网络。我有一…

### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

AI Player表现不佳?为什么?

我正在尝试实现一个使用Q-learning玩飞行棋的智…

在Q学习中添加约束并在违反约束时分配奖励

我最近参加了一个强化学习课程,正在为一个电力管理应用编…

Q-learning和SARSA中不同epsilon值的影响

由于我在这个领域还是初学者,我对不同epsilon值如…

Q-learning在游戏中未按预期工作

我尝试在自己编写的一个简单游戏中实现Q-learnin…

什么是Q-learning和值迭代之间的区别?

在强化学习中,Q-learning与值迭代有何不同? …