如何在强化学习(Q-learning)中添加约束

我想知道如何在Q-learning中添加约束。我每次采…

近端策略优化中的状态可以包含历史信息吗?

例如,时间步t的状态是否可以由t时刻和t-1时刻的状态…

Q学习算法在不使用ε-贪婪策略的情况下是否会产生相同的结果?

我在尝试实现Q学习算法,但没有足够的时间通过ε-贪婪策…

OpenAI gym 玩家模式

有人知道如何以玩家的身份运行 OpenAI gym 环…

策略梯度方法用于Open AI Gym Cartpole

我是一个强化学习的初学者,正在尝试使用Tensorfl…

如何理解强化学习中的近端策略优化算法?

我了解强化学习的基础知识,但要能够阅读arxiv PP…

Python游戏神经网络。如何设置输入

我正在用pygame制作一款坦克游戏,玩家可以操控坦克…

使用强化学习解决分类问题

已关闭。 此问题不符合 Stack Overflow …

### 理解策略和价值函数的强化学习

已关闭。 此问题不涉及编程或软件开发。目前不接受回答。…

强化学习 在有限状态和动作下的总策略数

我对强化学习是新手。所以这个问题可能看起来很简单 假设…

策略迭代与值迭代

在强化学习中,我试图理解策略迭代和值迭代之间的区别。虽…

OpenAI gym and Python threading

我正在研究A3C/ACER的一个变体,我有多个工作线程…

无法理解一个流行深度Q学习程序的这一行

https://github.com/yenchenl…

强化学习中相同状态的不同奖励

我想为Chrome的恐龙游戏(你可以在离线时玩的那个)…

使用强化学习选择最接近原点的点

我正在尝试使用强化学习从一组给定的点中反复选择最接近原…

强化学习在俄罗斯方块中的应用

我大致明白该如何操作,但我不理解如何保存(状态,值)对…

多臂老虎机练习中的违反直觉的结果

我正在学习Sutton & Barto的《强化…

Q-learning中的探索与利用

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

在SARSA中加入转移概率

我正在用C++实现一个SARSA(lambda)模型,…

Q-learning中的迭代和奖励

已关闭。 该问题与编程或软件开发无关。目前不接受回答。…

如何访问Tensorflow中循环单元的权重?

在深度Q学习任务中,提高稳定性的一种方法是保持一组用于…

国际象棋评估函数的训练

我即将基于强化学习编写一个国际象棋引擎。我希望训练一个…

用神经网络近似Q函数的奖励函数

在Q学习中,如果我的Q函数由一个标准的前馈神经网络近似…

Q-learning 更新频率

在Q-learning中,智能体从当前状态出发,在每个…

Q-learning与动态规划

经典的Q-learning算法使用查找表(而不是函数近…