关于Q学习中“情节”定义的困惑

在阅读了一些教程后,我仍然不确定“情节”的定义。情节是…

如何正确实现DQN算法

我正在尝试实现DeepMind在这篇论文中介绍的深度Q…

在部分可观察马尔可夫决策过程中,什么是“可控动作”?

我有一些关于部分可观察马尔可夫决策过程(POMDP)的…

AlphaGo Zero的棋盘评估函数使用多个时间步作为输入…为什么?

根据AlphaGo备忘单,AlphaGo Zero使用…

深度强化学习参数和训练时间用于简单游戏

我想了解深度强化学习算法的工作原理,以及在给定环境中训…

强化学习中奖励政策的重要性是什么?

我们为达到目标设定+1的奖励,而为达到不希望的状态设定…

[深度Q网络]如何在Tensorflow的自动微分中排除操作

我正在尝试使用Tensorflow创建一个类似于Dee…

为什么RMSProp被认为是“泄漏”的?

decay_rate = 0.99 # RMSProp…

如何在强化学习程序中设置即时奖励?

我想让我的强化学习代理尽可能快地达到目标,同时尽量减少…

### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

OpenAI gym: 如何获取完整的ATARI环境列表

我已经安装了OpenAI的gym和ATARI环境。我知…

### 强化学习中值迭代的基础情况

已关闭。 这个问题与编程或软件开发无关。目前不接受回答…

直接/间接与监督/无监督/强化学习

直接/间接学习与监督/无监督/强化学习之间是否存在对应…

什么是NEAT与强化学习之间的关系?

据我所知,NEAT(增强拓扑的神经进化)是一种利用进化…

Q-learning with 2D actions and 2D states

我的问题如下: 在每个状态下,智能体需要调整发电厂锅炉…

AI Player表现不佳?为什么?

我正在尝试实现一个使用Q-learning玩飞行棋的智…

函数逼近:瓦片编码与高度离散化的状态空间有何不同?

我正在从连续状态空间的离散化过渡到函数逼近。我的动作和…

在Q学习中添加约束并在违反约束时分配奖励

我最近参加了一个强化学习课程,正在为一个电力管理应用编…

Java中的马尔可夫模型决策过程

我正在用Java编写一个辅助学习算法。 我遇到了一个数…

Qlearning和奖励的索引

我的问题可能很简单,但我对著名的Q-learning方…

特萨罗的TD-Gammon中的棋盘编码

目前我正在尝试让特萨罗的TD-Gammon运作起来。然…

什么是Q-learning和值迭代之间的区别?

在强化学习中,Q-learning与值迭代有何不同? …

Q Learning Algorithm for Tic Tac Toe

我不明白如何更新井字游戏的Q值。我阅读了所有相关内容,…

使用神经网络进行Q-Learning的问题

我已经按照以下文档实现了Q-Learning, htt…

神经网络与时间差分学习

我读了几篇关于时间差分学习的论文和讲座(其中一些与神经…