从TensorFlow模型中选择动作权重

我有一个在强化学习环境中使用的小模型。 我可以输入一个…

何时以及为何需要深度强化学习而不是Q学习?

我一直在研究强化学习,并且理解了价值/策略迭代、TD(…

强化学习、深度学习和深度强化学习之间有什么区别?

已关闭。这个问题需要更加聚焦。目前不接受回答。 想要改…

为什么RL被称为“强化”学习?

我理解为什么机器学习会被这样命名,以及监督学习和非监督…

如何推导“进化策略作为强化学习的可扩展替代方案”中的方程?

在OpenAI的论文“进化策略作为强化学习的可扩展替代…

强化学习中的SARSA

我在研究无模型强化学习中的SARSA算法。具体来说,在…

强化学习中政策的利用方法

我想核实一下我对强化学习的理解。训练一个政策然后在之后…

AttributeError: 模块 ‘_Box2D’ 没有属性 ‘RAND_LIMIT_swigconstant’

我在尝试运行一个基于强化学习的月球着陆器程序,但运行时…

强化学习中奖励的标准化以生成回报

这个问题涉及到普通的、非批量处理的强化学习。基本上是这…

在神经网络中添加LSTM单元用于强化学习

已关闭。此问题需要更加集中。目前不接受回答。 想要改进…

Karpathy的代码使用策略梯度训练神经网络玩Pong游戏

我在研究Andrej Karpathy的“使用策略梯度…

将RNN和LSTM整合到DQN的Pytorch代码中

我在寻找如何将带有LSTM层的循环神经网络整合到我现有…

带有负向奖励的强化学习激活函数

我有一个关于在既有正向又有负向奖励的环境中选择合适的激…

MDP & Reinforcement Learning – VI、PI和QLearning算法的收敛性比较

我使用Python实现了VI(值迭代)、PI(策略迭代…

Deep Q score stuck at 9 for CartPole

我在使用TensorFlow实现的深度Q学习来解决Ca…

如何在强化学习(Q-learning)中添加约束

我想知道如何在Q-learning中添加约束。我每次采…

近端策略优化中的状态可以包含历史信息吗?

例如,时间步t的状态是否可以由t时刻和t-1时刻的状态…

Q学习算法在不使用ε-贪婪策略的情况下是否会产生相同的结果?

我在尝试实现Q学习算法,但没有足够的时间通过ε-贪婪策…

OpenAI gym 玩家模式

有人知道如何以玩家的身份运行 OpenAI gym 环…

策略梯度方法用于Open AI Gym Cartpole

我是一个强化学习的初学者,正在尝试使用Tensorfl…

如何理解强化学习中的近端策略优化算法?

我了解强化学习的基础知识,但要能够阅读arxiv PP…

Python游戏神经网络。如何设置输入

我正在用pygame制作一款坦克游戏,玩家可以操控坦克…

使用强化学习解决分类问题

已关闭。 此问题不符合 Stack Overflow …

### 理解策略和价值函数的强化学习

已关闭。 此问题不涉及编程或软件开发。目前不接受回答。…

强化学习 在有限状态和动作下的总策略数

我对强化学习是新手。所以这个问题可能看起来很简单 假设…