Proximal Policy Optimization Algorithms 论文 – “KL” 操作的定义?

在关于近端策略优化算法的原始论文中 https://a…

使用LSTM预测单元素序列

我正在尝试将强化学习应用于一个基于回合的游戏环境中。每…

为深度Q学习设置目标值

对于结合神经网络的标准Q学习来说,事情或多或少是比较简…

Python强化学习 – 元组观测空间

我创建了一个自定义的OpenAI Gym环境,具有离散…

OpenAI Gym环境’CartPole-v0’和’CartPole-v1’之间的区别

我找不到关于OpenAI Gym环境’Ca…

使用Actor Critic相较于DDQN的优缺点

我是强化学习的新手,我读了一些关于Actor Crit…

我在TensorFlow.js中可以使用强化学习吗?

我目前正在做一个项目,需要使用TensorFlow.j…

如何减少Atari游戏中Q值的计算量?

我们知道Q学习需要大量的计算: Q学习计算中的巨大状态…

什么是强化学习中的最优性?

我知道定义:- 最优策略 (pi)* 满足 (pi)*…

Deep Reinforcement Learning (keras-rl) 早期停止

根据这些人的说法(https://nihit.gith…

Q-learning计算中巨大的状态数量

我通过Q-learning实现了一个3×3的…

用于产品识别的字符串匹配算法

实在不知道该从哪里开始寻找合适的算法。 我正在开发一个…

机器如何知道哪一步能获得最大奖励?

据我所知,强化学习会从行动中获得奖励。 然而,在玩电子…

神经网络在大量训练后适应速度是否会变慢?

我是神经网络领域的初学者,我想理解一个特定的说法。一个…

实现近似(基于特征的)Q学习的问题

我是强化学习的新手。最近我学习了近似Q学习,或者称为基…

马尔可夫强化学习的拟合值迭代算法

在Andrew Ng的拟合值迭代算法中,我提供了以下详…

基于策略的学习无法收敛

我在尝试实现近端策略优化时,遇到了一个非常奇怪的问题。…

强化学习在每个状态都是终止状态的情况下的应用

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

Pytorch: 如何创建不基于导数的更新规则?

我想实现以下算法,来自这本书,第13.6节: 我不明白…

强化学习中的负面奖励

我无法理解这个问题:负面奖励究竟是如何帮助机器避免它们…

Pytorch ValueError: 优化器接收到空参数列表

在尝试创建一个神经网络并使用Pytorch进行优化时,…

强化学习中探索/利用的最佳实践

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

使用强化学习教机器人在达到终止状态前在网格世界中收集物品

我的问题如下。我有一个简单的网格世界: https:/…

我需要帮助理解强化学习代码

我一直在尝试解决OpenAI的MountainCarC…

Chainer如何保存和加载DQN模型

我正在学习深度强化学习框架Chainer。 我按照一个…