解决4个拼图的树形问题

我正在尝试解决4个方块的拼图问题。根据我的经验,我的逻…

Q-Learning: 你可以后退吗?

我在查看一个样本考试,其中有一道关于Q-learnin…

在强化学习中设置gamma和lambda

在使用广义时序差分的标准强化学习算法中(例如SARSA…

进化计算可以作为一种强化学习的方法吗?

进化计算是什么?它是一种强化学习的方法吗?还是一种独立…

### 在棋盘游戏中使用经典反向传播神经网络与TD学习

我想问一下,在棋盘游戏中使用标准的反向传播神经网络和T…

如何将MinMax树与Q-Learning结合使用?

如何将MinMax树与Q-Learning结合使用? …

Connect 4游戏我应该使用哪种机器学习算法?

我已经有了一个擅长玩Connect 4(使用minim…

Q-learning 和 SARSA 之间有什么区别?

虽然我知道 SARSA 是一种同策略学习,而 Q-le…

SARSA 算法

我对理解 SARSA 算法有些困难:http://en…

使用Delphi/Pascal实现TD(λ) (时序差分学习)

我有一个玩井字游戏的神经网络,但尚未完成。 我已完成的…

减少强化学习中的马尔可夫状态数量

我开始尝试强化学习(使用 Sutton 的书)。 我未…

是否有活跃的强化学习竞赛?

我喜欢兼职做强化学习研究。近年来(直到2009年),r…

学习分层强化任务的结构

我一直在研究分层强化学习问题,虽然很多论文都提出了有趣…

时序差分中的更新规则

TD(0) Q-学习的更新规则: Q(t-1) = (…

## 改进 Q-学习

我目前正在使用 Q-学习来尝试教一个机器人在一个充满墙…

使用循环神经网络进行强化学习有哪些用途?

我知道带有反向传播的前馈多层神经网络可以与强化学习结合…

QLearning 与永不结束的回合

假设我们有一个机器人可以在 (x,y) 平面上移动。现…

QLearning 中的负奖励

假设我们在一个房间里,我们的智能体可以沿着 xx 轴和…

Q-Learning 的泛化函数

我需要用 Q Learning 做一些工作,关于一个人…

如何使用神经网络解决“软”解决方案?

我正在考虑使用神经网络来驱动我正在构建的太空射击游戏中…

如何运行 Sutton 和 Barton 的 “强化学习” Lisp 代码?

最近我阅读了很多关于 强化学习 的资料,发现 &#82…

强化学习的优秀实现?

已关闭。 这个问题寻求关于软件库、教程、工具、书籍或其…