q-learning – 学技术

IT技术

DQN Pytorch损失持续增加

xiaolong · 2025年5月31日 · 0 Comment

我正在使用pytorch实现一个简单的DQN算法，以解…

IT技术

OpenAI Gym – 迷宫 – 使用Q学习- “ValueError: dir不能为0。有效的方向只能是dict_keys([‘N’, ‘E’, ‘S’, ‘W’])。”

xiaolong · 2025年5月30日 · 0 Comment

我正在尝试使用Q学习来训练一个智能体来解决迷宫问题。 …

IT技术

如何将坐标设置为状态空间（范围）以用于Q表？

xiaolong · 2025年5月28日 · 0 Comment

假设我有一个名为Player的类，我希望将其用作我的代…

IT技术

如何为Q学习设置状态空间？

xiaolong · 2025年5月28日 · 0 Comment

显然，这是一个非常明显且基础的问题，因为我找不到任何相…

IT技术

在普通家用电脑上使用Q-learning时，我可以处理多少个状态？

xiaolong · 2025年5月27日 · 0 Comment

当我想实现像Q-learning这样的强化学习算法时，…

IT技术

Q值过高，值变成NaN，Q-Learning Tensorflow

xiaolong · 2025年5月27日 · 0 Comment

我编写了一个非常简单的游戏，运行方式如下：给定一个4…

IT技术

实现近似（基于特征的）Q学习的问题

xiaolong · 2025年5月24日 · 0 Comment

我是强化学习的新手。最近我学习了近似Q学习，或者称为基…

IT技术

使用强化学习教机器人在达到终止状态前在网格世界中收集物品

xiaolong · 2025年5月22日 · 0 Comment

我的问题如下。我有一个简单的网格世界： https:/…

IT技术

强化学习中Q、V（价值函数）和奖励之间的确切区别是什么？

xiaolong · 2025年5月22日 · 0 Comment

在双Q或对决Q网络的背景下，我不确定自己是否完全理解它…

IT技术

Epsilon和学习率衰减在epsilon贪婪Q学习中

xiaolong · 2025年5月22日 · 0 Comment

我理解epsilon标志着探索与利用之间的权衡。开始时…

IT技术

深度强化学习 – 如何处理动作空间中的边界问题

xiaolong · 2025年5月1日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答…

IT技术

何时以及为何需要深度强化学习而不是Q学习？

xiaolong · 2025年4月16日 · 0 Comment

我一直在研究强化学习，并且理解了价值/策略迭代、TD(…

IT技术

强化学习、深度学习和深度强化学习之间有什么区别？

xiaolong · 2025年4月16日 · 0 Comment

已关闭。这个问题需要更加聚焦。目前不接受回答。想要改…

IT技术

带有负向奖励的强化学习激活函数

xiaolong · 2025年4月14日 · 0 Comment

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

IT技术

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

xiaolong · 2025年4月14日 · 0 Comment

我使用Python实现了VI（值迭代）、PI（策略迭代…

IT技术

如何在强化学习（Q-learning）中添加约束

xiaolong · 2025年4月14日 · 0 Comment

我想知道如何在Q-learning中添加约束。我每次采…

IT技术

强化学习中相同状态的不同奖励

xiaolong · 2025年4月12日 · 0 Comment

我想为Chrome的恐龙游戏（你可以在离线时玩的那个）…

IT技术

Q-learning中的探索与利用

xiaolong · 2025年4月12日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

Q-learning中的迭代和奖励

xiaolong · 2025年4月12日 · 0 Comment

已关闭。该问题与编程或软件开发无关。目前不接受回答。…

IT技术

用神经网络近似Q函数的奖励函数

xiaolong · 2025年4月12日 · 0 Comment

在Q学习中，如果我的Q函数由一个标准的前馈神经网络近似…

IT技术

Q-learning 更新频率

xiaolong · 2025年4月12日 · 0 Comment

在Q-learning中，智能体从当前状态出发，在每个…

IT技术

在深度Q学习算法中什么是phi

xiaolong · 2025年4月12日 · 0 Comment

我正在尝试从零开始用Java制作一个学习型足球游戏，并…

IT技术

Q-learning与动态规划

xiaolong · 2025年4月11日 · 0 Comment

经典的Q-learning算法使用查找表（而不是函数近…

IT技术

强化学习与深度强化学习的区别是什么？

xiaolong · 2025年4月10日 · 0 Comment

深度强化学习与强化学习的区别是什么？我基本了解强化学习…

IT技术

强化学习 – 智能体如何知道选择哪个动作？

xiaolong · 2025年4月10日 · 0 Comment

我在尝试理解Q-Learning 基本的更新公式是： …