DQN Pytorch损失持续增加

我正在使用pytorch实现一个简单的DQN算法,以解…

OpenAI Gym – 迷宫 – 使用Q学习- “ValueError: dir不能为0。有效的方向只能是dict_keys([‘N’, ‘E’, ‘S’, ‘W’])。”

我正在尝试使用Q学习来训练一个智能体来解决迷宫问题。 …

如何将坐标设置为状态空间(范围)以用于Q表?

假设我有一个名为Player的类,我希望将其用作我的代…

如何为Q学习设置状态空间?

显然,这是一个非常明显且基础的问题,因为我找不到任何相…

在普通家用电脑上使用Q-learning时,我可以处理多少个状态?

当我想实现像Q-learning这样的强化学习算法时,…

Q值过高,值变成NaN,Q-Learning Tensorflow

我编写了一个非常简单的游戏,运行方式如下: 给定一个4…

实现近似(基于特征的)Q学习的问题

我是强化学习的新手。最近我学习了近似Q学习,或者称为基…

使用强化学习教机器人在达到终止状态前在网格世界中收集物品

我的问题如下。我有一个简单的网格世界: https:/…

强化学习中Q、V(价值函数)和奖励之间的确切区别是什么?

在双Q或对决Q网络的背景下,我不确定自己是否完全理解它…

Epsilon和学习率衰减在epsilon贪婪Q学习中

我理解epsilon标志着探索与利用之间的权衡。开始时…

深度强化学习 – 如何处理动作空间中的边界问题

已关闭。 此问题 与编程或软件开发无关。目前不接受回答…

何时以及为何需要深度强化学习而不是Q学习?

我一直在研究强化学习,并且理解了价值/策略迭代、TD(…

强化学习、深度学习和深度强化学习之间有什么区别?

已关闭。这个问题需要更加聚焦。目前不接受回答。 想要改…

带有负向奖励的强化学习激活函数

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

我使用Python实现了VI(值迭代)、PI(策略迭代…

如何在强化学习(Q-learning)中添加约束

我想知道如何在Q-learning中添加约束。我每次采…

强化学习中相同状态的不同奖励

我想为Chrome的恐龙游戏(你可以在离线时玩的那个)…

Q-learning中的探索与利用

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

Q-learning中的迭代和奖励

已关闭。 该问题与编程或软件开发无关。目前不接受回答。…

用神经网络近似Q函数的奖励函数

在Q学习中,如果我的Q函数由一个标准的前馈神经网络近似…

Q-learning 更新频率

在Q-learning中,智能体从当前状态出发,在每个…

在深度Q学习算法中什么是phi

我正在尝试从零开始用Java制作一个学习型足球游戏,并…

Q-learning与动态规划

经典的Q-learning算法使用查找表(而不是函数近…

强化学习与深度强化学习的区别是什么?

深度强化学习与强化学习的区别是什么?我基本了解强化学习…

强化学习 – 智能体如何知道选择哪个动作?

我在尝试理解Q-Learning 基本的更新公式是: …