q-learning – 第 2 页

IT技术

这是对跳棋游戏Q-Learning实现的正确方法吗？

xiaolong · 2025年4月10日 · 0 Comment

我正在尝试理解Q-Learning，我当前的算法运行…

IT技术

如何在每次迭代后返回控制的强化学习程序中使用Tensorflow优化器而不重新计算激活值？

xiaolong · 2025年4月8日 · 0 Comment

编辑(1/3/16): 相关GitHub问题我正在使…

IT技术

Q-learning与时间差分与基于模型的强化学习

xiaolong · 2025年4月8日 · 0 Comment

我在大学里上了一门名为“智能机器”的课程。我们被介绍了…

IT技术

在使用函数近似的Q学习中，是否可以避免手工制作特征？

xiaolong · 2025年4月7日 · 0 Comment

我对机器学习的背景知识不多，如果我的问题看起来很傻，请…

IT技术

Q-learning 没有最终状态是否可行？

xiaolong · 2025年4月7日 · 0 Comment

我需要用 Q-learning 解决这个问题。实际上，…

IT技术

最佳epsilon (ϵ-greedy)值

xiaolong · 2025年4月7日 · 0 Comment

ϵ-greedy策略我知道Q-learning算法应…

IT技术

使用神经网络在线估计Q-表

xiaolong · 2025年4月7日 · 0 Comment

当我在强化学习中使用Q-表来保存状态-动作时，有些状态…

IT技术

在Q-learning中使用Boltzman探索策略处理超过两个动作的情况

xiaolong · 2025年4月7日 · 0 Comment

我在Q-learning中使用Boltzman探索策略…

IT技术

如何将强化学习应用于连续动作空间？

xiaolong · 2025年4月6日 · 0 Comment

我正在尝试让一个智能体学习在强化学习环境中完成某项任务…

IT技术

贝尔曼最优方程与Q-learning的关系

xiaolong · 2025年4月5日 · 0 Comment

根据贝尔曼最优方程（见Sutton 2018年第63页…

IT技术

Q-learning中的收敛标准

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试Q-learning算法。我已经阅读了不同的…

IT技术

训练神经网络以真实受试者的输入/输出为基础，使其行为类似于受试者

xiaolong · 2025年4月4日 · 0 Comment

目标是创建一个AI来玩一个简单的游戏，跟踪屏幕上水平移…

IT技术

如何将此代码改为使用Q表进行强化学习

xiaolong · 2025年4月4日 · 0 Comment

我正在学习Q表，并尝试了一个简单的版本，该版本仅使用一…

IT技术

深度Q网络中的Q-Learning方程

xiaolong · 2025年4月4日 · 0 Comment

我对强化学习完全是新手，所以我可能会有错。我的问题是…

IT技术

策略梯度方法与基于神经网络的动作价值方法之间有什么区别？

xiaolong · 2025年4月4日 · 0 Comment

策略梯度方法与基于神经网络的动作价值方法之间有什么区别…

IT技术

如何不变的奖励帮助训练？

xiaolong · 2025年4月4日 · 0 Comment

我是机器学习的新手，正在尝试使用Q-learning解…

IT技术

关于Q学习中“情节”定义的困惑

xiaolong · 2025年4月4日 · 0 Comment

在阅读了一些教程后，我仍然不确定“情节”的定义。情节是…

IT技术

强化学习中奖励政策的重要性是什么？

xiaolong · 2025年4月4日 · 0 Comment

我们为达到目标设定+1的奖励，而为达到不希望的状态设定…

IT技术

如何从另一个数组索引到TensorFlow张量中

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试为人工智能问题编写一个深度Q学习网络。我有一…

IT技术

### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

xiaolong · 2025年4月4日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

AI Player表现不佳？为什么？

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试实现一个使用Q-learning玩飞行棋的智…

IT技术

在Q学习中添加约束并在违反约束时分配奖励

xiaolong · 2025年4月4日 · 0 Comment

我最近参加了一个强化学习课程，正在为一个电力管理应用编…

IT技术

Q-learning和SARSA中不同epsilon值的影响

xiaolong · 2025年4月4日 · 0 Comment

由于我在这个领域还是初学者，我对不同epsilon值如…

IT技术

Q-learning在游戏中未按预期工作

xiaolong · 2025年4月4日 · 0 Comment

我尝试在自己编写的一个简单游戏中实现Q-learnin…

IT技术

什么是Q-learning和值迭代之间的区别？

xiaolong · 2025年4月4日 · 0 Comment

在强化学习中，Q-learning与值迭代有何不同？ …