减少强化学习中的马尔可夫状态数量

我开始尝试强化学习(使用 Sutton 的书)。 我未…

是否有活跃的强化学习竞赛?

我喜欢兼职做强化学习研究。近年来(直到2009年),r…

学习分层强化任务的结构

我一直在研究分层强化学习问题,虽然很多论文都提出了有趣…

时序差分中的更新规则

TD(0) Q-学习的更新规则: Q(t-1) = (…

## 改进 Q-学习

我目前正在使用 Q-学习来尝试教一个机器人在一个充满墙…

使用循环神经网络进行强化学习有哪些用途?

我知道带有反向传播的前馈多层神经网络可以与强化学习结合…

QLearning 与永不结束的回合

假设我们有一个机器人可以在 (x,y) 平面上移动。现…

QLearning 中的负奖励

假设我们在一个房间里,我们的智能体可以沿着 xx 轴和…

Q-Learning 的泛化函数

我需要用 Q Learning 做一些工作,关于一个人…

如何使用神经网络解决“软”解决方案?

我正在考虑使用神经网络来驱动我正在构建的太空射击游戏中…

如何运行 Sutton 和 Barton 的 “强化学习” Lisp 代码?

最近我阅读了很多关于 强化学习 的资料,发现 &#82…

强化学习的优秀实现?

已关闭。 这个问题寻求关于软件库、教程、工具、书籍或其…