策略迭代与值迭代

在强化学习中,我试图理解策略迭代和值迭代之间的区别。虽…

OpenAI gym and Python threading

我正在研究A3C/ACER的一个变体,我有多个工作线程…

无法理解一个流行深度Q学习程序的这一行

https://github.com/yenchenl…

强化学习中相同状态的不同奖励

我想为Chrome的恐龙游戏(你可以在离线时玩的那个)…

使用强化学习选择最接近原点的点

我正在尝试使用强化学习从一组给定的点中反复选择最接近原…

强化学习在俄罗斯方块中的应用

我大致明白该如何操作,但我不理解如何保存(状态,值)对…

多臂老虎机练习中的违反直觉的结果

我正在学习Sutton & Barto的《强化…

Q-learning中的探索与利用

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

在SARSA中加入转移概率

我正在用C++实现一个SARSA(lambda)模型,…

Q-learning中的迭代和奖励

已关闭。 该问题与编程或软件开发无关。目前不接受回答。…

如何访问Tensorflow中循环单元的权重?

在深度Q学习任务中,提高稳定性的一种方法是保持一组用于…

国际象棋评估函数的训练

我即将基于强化学习编写一个国际象棋引擎。我希望训练一个…

用神经网络近似Q函数的奖励函数

在Q学习中,如果我的Q函数由一个标准的前馈神经网络近似…

Q-learning 更新频率

在Q-learning中,智能体从当前状态出发,在每个…

Q-learning与动态规划

经典的Q-learning算法使用查找表(而不是函数近…

强化学习与深度强化学习的区别是什么?

深度强化学习与强化学习的区别是什么?我基本了解强化学习…

时间差学习中的双重计数

我正在研究一个时间差学习的例子(https://www…

Python中用于强化学习的仿真和可视化库?

已关闭。 此问题正在寻求对软件库、教程、工具、书籍或其…

Gradient Temporal Difference Lambda without Function Approximation

在每一种GTD(λ)的形式化描述中,似乎都将其定义为基…

强化学习 – 智能体如何知道选择哪个动作?

我在尝试理解Q-Learning 基本的更新公式是: …

这是对跳棋游戏Q-Learning实现的正确方法吗?

我正在尝试理解Q-Learning, 我当前的算法运行…

如何在每次迭代后返回控制的强化学习程序中使用Tensorflow优化器而不重新计算激活值?

编辑(1/3/16): 相关GitHub问题 我正在使…

Python 神经网络强化学习

已关闭。 此问题正在寻求关于软件库、教程、工具、书籍或…

Q-learning与时间差分与基于模型的强化学习

我在大学里上了一门名为“智能机器”的课程。我们被介绍了…

交叉熵与遗传算法的区别是什么?

我的几个实验室同事一直在尝试交叉熵强化学习。从他们那里…