reinforcement-learning – 第 3 页

IT技术

强化学习中Q、V（价值函数）和奖励之间的确切区别是什么？

xiaolong · 2025年5月22日 · 0 Comment

在双Q或对决Q网络的背景下，我不确定自己是否完全理解它…

IT技术

使用SVM分类器和多种算法提高准确性

xiaolong · 2025年5月22日 · 0 Comment

我正在进行的一个项目中，我希望预测市场趋势并据此进行多…

IT技术

Epsilon和学习率衰减在epsilon贪婪Q学习中

xiaolong · 2025年5月22日 · 0 Comment

我理解epsilon标志着探索与利用之间的权衡。开始时…

IT技术

强化学习迷你高尔夫游戏

xiaolong · 2025年5月22日 · 0 Comment

我正在尝试使用强化学习算法来玩一个简单的迷你高尔夫游戏…

IT技术

资格迹算法的更新顺序

xiaolong · 2025年5月22日 · 0 Comment

我正在阅读Silver 等人的论文 (2012) &#…

IT技术

在强化学习中将离散动作转换为连续动作

xiaolong · 2025年5月22日 · 0 Comment

在强化学习中，我们通过经验知道使用离散动作比使用连续动…

IT技术

EM评分在SQuAD挑战赛中

xiaolong · 2025年5月22日 · 0 Comment

SQuAD挑战赛根据F1和EM评分对结果进行排名。关于…

IT技术

深度强化学习 – 如何处理动作空间中的边界问题

xiaolong · 2025年5月1日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答…

IT技术

MIT Deep Traffic Challenge中的奖励函数？

xiaolong · 2025年5月1日 · 0 Comment

我一直在尝试MIT DeepTraffic Chall…

IT技术

### 神经网络权重不变

xiaolong · 2025年5月1日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

从TensorFlow模型中选择动作权重

xiaolong · 2025年4月16日 · 0 Comment

我有一个在强化学习环境中使用的小模型。我可以输入一个…

IT技术

何时以及为何需要深度强化学习而不是Q学习？

xiaolong · 2025年4月16日 · 0 Comment

我一直在研究强化学习，并且理解了价值/策略迭代、TD(…

IT技术

强化学习、深度学习和深度强化学习之间有什么区别？

xiaolong · 2025年4月16日 · 0 Comment

已关闭。这个问题需要更加聚焦。目前不接受回答。想要改…

IT技术

为什么RL被称为“强化”学习？

xiaolong · 2025年4月16日 · 0 Comment

我理解为什么机器学习会被这样命名，以及监督学习和非监督…

IT技术

如何推导“进化策略作为强化学习的可扩展替代方案”中的方程？

xiaolong · 2025年4月16日 · 0 Comment

在OpenAI的论文“进化策略作为强化学习的可扩展替代…

IT技术

强化学习中的SARSA

xiaolong · 2025年4月15日 · 0 Comment

我在研究无模型强化学习中的SARSA算法。具体来说，在…

IT技术

强化学习中政策的利用方法

xiaolong · 2025年4月15日 · 0 Comment

我想核实一下我对强化学习的理解。训练一个政策然后在之后…

IT技术

AttributeError: 模块 ‘_Box2D’ 没有属性 ‘RAND_LIMIT_swigconstant’

xiaolong · 2025年4月15日 · 0 Comment

我在尝试运行一个基于强化学习的月球着陆器程序，但运行时…

IT技术

强化学习中奖励的标准化以生成回报

xiaolong · 2025年4月15日 · 0 Comment

这个问题涉及到普通的、非批量处理的强化学习。基本上是这…

IT技术

在神经网络中添加LSTM单元用于强化学习

xiaolong · 2025年4月15日 · 0 Comment

已关闭。此问题需要更加集中。目前不接受回答。想要改进…

IT技术

Karpathy的代码使用策略梯度训练神经网络玩Pong游戏

xiaolong · 2025年4月15日 · 0 Comment

我在研究Andrej Karpathy的“使用策略梯度…

IT技术

将RNN和LSTM整合到DQN的Pytorch代码中

xiaolong · 2025年4月15日 · 0 Comment

我在寻找如何将带有LSTM层的循环神经网络整合到我现有…

IT技术

带有负向奖励的强化学习激活函数

xiaolong · 2025年4月14日 · 0 Comment

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

IT技术

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

xiaolong · 2025年4月14日 · 0 Comment

我使用Python实现了VI（值迭代）、PI（策略迭代…

IT技术

Deep Q score stuck at 9 for CartPole

xiaolong · 2025年4月14日 · 0 Comment

我在使用TensorFlow实现的深度Q学习来解决Ca…