reinforcement-learning – 第 9 页

IT技术

解决4个拼图的树形问题

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试解决4个方块的拼图问题。根据我的经验，我的逻…

IT技术

Q-Learning: 你可以后退吗？

xiaolong · 2025年4月4日 · 0 Comment

我在查看一个样本考试，其中有一道关于Q-learnin…

IT技术

在强化学习中设置gamma和lambda

xiaolong · 2025年4月4日 · 0 Comment

在使用广义时序差分的标准强化学习算法中（例如SARSA…

IT技术

进化计算可以作为一种强化学习的方法吗？

xiaolong · 2025年4月4日 · 0 Comment

进化计算是什么？它是一种强化学习的方法吗？还是一种独立…

IT技术

### 在棋盘游戏中使用经典反向传播神经网络与TD学习

xiaolong · 2025年4月4日 · 0 Comment

我想问一下，在棋盘游戏中使用标准的反向传播神经网络和T…

IT技术

如何将MinMax树与Q-Learning结合使用？

xiaolong · 2025年4月4日 · 0 Comment

如何将MinMax树与Q-Learning结合使用？ …

IT技术

Connect 4游戏我应该使用哪种机器学习算法？

xiaolong · 2025年4月2日 · 0 Comment

我已经有了一个擅长玩Connect 4（使用minim…

IT技术

Q-learning 和 SARSA 之间有什么区别？

xiaolong · 2025年4月2日 · 0 Comment

虽然我知道 SARSA 是一种同策略学习，而 Q-le…

IT技术

SARSA 算法

xiaolong · 2025年4月2日 · 0 Comment

我对理解 SARSA 算法有些困难：http://en…

IT技术

使用Delphi/Pascal实现TD(λ) (时序差分学习)

xiaolong · 2025年4月2日 · 0 Comment

我有一个玩井字游戏的神经网络，但尚未完成。我已完成的…

IT技术

减少强化学习中的马尔可夫状态数量

xiaolong · 2025年4月2日 · 0 Comment

我开始尝试强化学习（使用 Sutton 的书）。我未…

IT技术

是否有活跃的强化学习竞赛？

xiaolong · 2025年4月2日 · 0 Comment

我喜欢兼职做强化学习研究。近年来（直到2009年），r…

IT技术

学习分层强化任务的结构

xiaolong · 2025年4月2日 · 0 Comment

我一直在研究分层强化学习问题，虽然很多论文都提出了有趣…

IT技术

时序差分中的更新规则

xiaolong · 2025年4月2日 · 0 Comment

TD(0) Q-学习的更新规则： Q(t-1) = (…

IT技术

## 改进 Q-学习

xiaolong · 2025年4月2日 · 0 Comment

我目前正在使用 Q-学习来尝试教一个机器人在一个充满墙…

IT技术

使用循环神经网络进行强化学习有哪些用途？

xiaolong · 2025年4月2日 · 0 Comment

我知道带有反向传播的前馈多层神经网络可以与强化学习结合…

IT技术

QLearning 与永不结束的回合

xiaolong · 2025年4月2日 · 0 Comment

假设我们有一个机器人可以在 (x,y) 平面上移动。现…

IT技术

QLearning 中的负奖励

xiaolong · 2025年4月2日 · 0 Comment

假设我们在一个房间里，我们的智能体可以沿着 xx 轴和…

IT技术

Q-Learning 的泛化函数

xiaolong · 2025年4月2日 · 0 Comment

我需要用 Q Learning 做一些工作，关于一个人…

IT技术

如何使用神经网络解决“软”解决方案？

xiaolong · 2025年4月2日 · 0 Comment

我正在考虑使用神经网络来驱动我正在构建的太空射击游戏中…

IT技术

如何运行 Sutton 和 Barton 的 “强化学习” Lisp 代码？

xiaolong · 2025年4月2日 · 0 Comment

最近我阅读了很多关于强化学习的资料，发现 &#82…

IT技术

强化学习的优秀实现？

xiaolong · 2025年4月2日 · 0 Comment

已关闭。这个问题寻求关于软件库、教程、工具、书籍或其…