强化学习中Q、V(价值函数)和奖励之间的确切区别是什么?

在双Q或对决Q网络的背景下,我不确定自己是否完全理解它…

使用SVM分类器和多种算法提高准确性

我正在进行的一个项目中,我希望预测市场趋势并据此进行多…

Epsilon和学习率衰减在epsilon贪婪Q学习中

我理解epsilon标志着探索与利用之间的权衡。开始时…

强化学习迷你高尔夫游戏

我正在尝试使用强化学习算法来玩一个简单的迷你高尔夫游戏…

资格迹算法的更新顺序

我正在阅读Silver 等人的论文 (2012) &#…

在强化学习中将离散动作转换为连续动作

在强化学习中,我们通过经验知道使用离散动作比使用连续动…

EM评分在SQuAD挑战赛中

SQuAD挑战赛根据F1和EM评分对结果进行排名。关于…

深度强化学习 – 如何处理动作空间中的边界问题

已关闭。 此问题 与编程或软件开发无关。目前不接受回答…

MIT Deep Traffic Challenge中的奖励函数?

我一直在尝试MIT DeepTraffic Chall…

### 神经网络权重不变

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

从TensorFlow模型中选择动作权重

我有一个在强化学习环境中使用的小模型。 我可以输入一个…

何时以及为何需要深度强化学习而不是Q学习?

我一直在研究强化学习,并且理解了价值/策略迭代、TD(…

强化学习、深度学习和深度强化学习之间有什么区别?

已关闭。这个问题需要更加聚焦。目前不接受回答。 想要改…

为什么RL被称为“强化”学习?

我理解为什么机器学习会被这样命名,以及监督学习和非监督…

如何推导“进化策略作为强化学习的可扩展替代方案”中的方程?

在OpenAI的论文“进化策略作为强化学习的可扩展替代…

强化学习中的SARSA

我在研究无模型强化学习中的SARSA算法。具体来说,在…

强化学习中政策的利用方法

我想核实一下我对强化学习的理解。训练一个政策然后在之后…

AttributeError: 模块 ‘_Box2D’ 没有属性 ‘RAND_LIMIT_swigconstant’

我在尝试运行一个基于强化学习的月球着陆器程序,但运行时…

强化学习中奖励的标准化以生成回报

这个问题涉及到普通的、非批量处理的强化学习。基本上是这…

在神经网络中添加LSTM单元用于强化学习

已关闭。此问题需要更加集中。目前不接受回答。 想要改进…

Karpathy的代码使用策略梯度训练神经网络玩Pong游戏

我在研究Andrej Karpathy的“使用策略梯度…

将RNN和LSTM整合到DQN的Pytorch代码中

我在寻找如何将带有LSTM层的循环神经网络整合到我现有…

带有负向奖励的强化学习激活函数

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

我使用Python实现了VI(值迭代)、PI(策略迭代…

Deep Q score stuck at 9 for CartPole

我在使用TensorFlow实现的深度Q学习来解决Ca…