训练神经网络以真实受试者的输入/输出为基础,使其行为类似于受试者

目标是创建一个AI来玩一个简单的游戏,跟踪屏幕上水平移…

如何将此代码改为使用Q表进行强化学习

我正在学习Q表,并尝试了一个简单的版本,该版本仅使用一…

深度Q网络中的Q-Learning方程

我对强化学习完全是新手,所以我可能会有错。 我的问题是…

策略梯度方法与基于神经网络的动作价值方法之间有什么区别?

策略梯度方法与基于神经网络的动作价值方法之间有什么区别…

如何不变的奖励帮助训练?

我是机器学习的新手,正在尝试使用Q-learning解…

关于Q学习中“情节”定义的困惑

在阅读了一些教程后,我仍然不确定“情节”的定义。情节是…

强化学习中奖励政策的重要性是什么?

我们为达到目标设定+1的奖励,而为达到不希望的状态设定…

如何从另一个数组索引到TensorFlow张量中

我正在尝试为人工智能问题编写一个深度Q学习网络。我有一…

### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

AI Player表现不佳?为什么?

我正在尝试实现一个使用Q-learning玩飞行棋的智…

在Q学习中添加约束并在违反约束时分配奖励

我最近参加了一个强化学习课程,正在为一个电力管理应用编…

Q-learning和SARSA中不同epsilon值的影响

由于我在这个领域还是初学者,我对不同epsilon值如…

Q-learning在游戏中未按预期工作

我尝试在自己编写的一个简单游戏中实现Q-learnin…

什么是Q-learning和值迭代之间的区别?

在强化学习中,Q-learning与值迭代有何不同? …

Q Learning Algorithm for Tic Tac Toe

我不明白如何更新井字游戏的Q值。我阅读了所有相关内容,…

使用神经网络进行Q-Learning的问题

我已经按照以下文档实现了Q-Learning, htt…

解决4个拼图的树形问题

我正在尝试解决4个方块的拼图问题。根据我的经验,我的逻…

Q-Learning: 你可以后退吗?

我在查看一个样本考试,其中有一道关于Q-learnin…

在神经网络中使用Q-learning – 山地车问题

我一直在阅读关于Q-learning和神经网络的内容。…

Q-learning 和 SARSA 之间有什么区别?

虽然我知道 SARSA 是一种同策略学习,而 Q-le…