我有一个在强化学习环境中使用的小模型。 我可以输入一个…
我一直在研究强化学习,并且理解了价值/策略迭代、TD(…
已关闭。这个问题需要更加聚焦。目前不接受回答。 想要改…
我理解为什么机器学习会被这样命名,以及监督学习和非监督…
在OpenAI的论文“进化策略作为强化学习的可扩展替代…
我在研究无模型强化学习中的SARSA算法。具体来说,在…
我想核实一下我对强化学习的理解。训练一个政策然后在之后…
我在尝试运行一个基于强化学习的月球着陆器程序,但运行时…
这个问题涉及到普通的、非批量处理的强化学习。基本上是这…
已关闭。此问题需要更加集中。目前不接受回答。 想要改进…
我在研究Andrej Karpathy的“使用策略梯度…
我在寻找如何将带有LSTM层的循环神经网络整合到我现有…
我有一个关于在既有正向又有负向奖励的环境中选择合适的激…
我使用Python实现了VI(值迭代)、PI(策略迭代…
我在使用TensorFlow实现的深度Q学习来解决Ca…
我想知道如何在Q-learning中添加约束。我每次采…
例如,时间步t的状态是否可以由t时刻和t-1时刻的状态…
我在尝试实现Q学习算法,但没有足够的时间通过ε-贪婪策…
有人知道如何以玩家的身份运行 OpenAI gym 环…
我是一个强化学习的初学者,正在尝试使用Tensorfl…
我了解强化学习的基础知识,但要能够阅读arxiv PP…
我正在用pygame制作一款坦克游戏,玩家可以操控坦克…
已关闭。 此问题不符合 Stack Overflow …
已关闭。 此问题不涉及编程或软件开发。目前不接受回答。…
我对强化学习是新手。所以这个问题可能看起来很简单 假设…