reinforcement-learning – 第 2 页

IT技术

Proximal Policy Optimization Algorithms 论文 – “KL” 操作的定义？

xiaolong · 2025年5月26日 · 0 Comment

在关于近端策略优化算法的原始论文中 https://a…

IT技术

使用LSTM预测单元素序列

xiaolong · 2025年5月26日 · 0 Comment

我正在尝试将强化学习应用于一个基于回合的游戏环境中。每…

IT技术

为深度Q学习设置目标值

xiaolong · 2025年5月25日 · 0 Comment

对于结合神经网络的标准Q学习来说，事情或多或少是比较简…

IT技术

Python强化学习 – 元组观测空间

xiaolong · 2025年5月25日 · 0 Comment

我创建了一个自定义的OpenAI Gym环境，具有离散…

IT技术

OpenAI Gym环境’CartPole-v0’和’CartPole-v1’之间的区别

xiaolong · 2025年5月25日 · 0 Comment

我找不到关于OpenAI Gym环境’Ca…

IT技术

使用Actor Critic相较于DDQN的优缺点

xiaolong · 2025年5月24日 · 0 Comment

我是强化学习的新手，我读了一些关于Actor Crit…

IT技术

我在TensorFlow.js中可以使用强化学习吗？

xiaolong · 2025年5月24日 · 0 Comment

我目前正在做一个项目，需要使用TensorFlow.j…

IT技术

如何减少Atari游戏中Q值的计算量？

xiaolong · 2025年5月24日 · 0 Comment

我们知道Q学习需要大量的计算： Q学习计算中的巨大状态…

IT技术

什么是强化学习中的最优性？

xiaolong · 2025年5月24日 · 0 Comment

我知道定义：- 最优策略 (pi)* 满足 (pi)*…

IT技术

Deep Reinforcement Learning (keras-rl) 早期停止

xiaolong · 2025年5月24日 · 0 Comment

根据这些人的说法（https://nihit.gith…

IT技术

Q-learning计算中巨大的状态数量

xiaolong · 2025年5月24日 · 0 Comment

我通过Q-learning实现了一个3×3的…

IT技术

用于产品识别的字符串匹配算法

xiaolong · 2025年5月24日 · 0 Comment

实在不知道该从哪里开始寻找合适的算法。我正在开发一个…

IT技术

机器如何知道哪一步能获得最大奖励？

xiaolong · 2025年5月24日 · 0 Comment

据我所知，强化学习会从行动中获得奖励。然而，在玩电子…

IT技术

神经网络在大量训练后适应速度是否会变慢？

xiaolong · 2025年5月24日 · 0 Comment

我是神经网络领域的初学者，我想理解一个特定的说法。一个…

IT技术

实现近似（基于特征的）Q学习的问题

xiaolong · 2025年5月24日 · 0 Comment

我是强化学习的新手。最近我学习了近似Q学习，或者称为基…

IT技术

马尔可夫强化学习的拟合值迭代算法

xiaolong · 2025年5月24日 · 0 Comment

在Andrew Ng的拟合值迭代算法中，我提供了以下详…

IT技术

基于策略的学习无法收敛

xiaolong · 2025年5月24日 · 0 Comment

我在尝试实现近端策略优化时，遇到了一个非常奇怪的问题。…

IT技术

强化学习在每个状态都是终止状态的情况下的应用

xiaolong · 2025年5月23日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

Pytorch: 如何创建不基于导数的更新规则？

xiaolong · 2025年5月23日 · 0 Comment

我想实现以下算法，来自这本书，第13.6节：我不明白…

IT技术

强化学习中的负面奖励

xiaolong · 2025年5月23日 · 0 Comment

我无法理解这个问题：负面奖励究竟是如何帮助机器避免它们…

IT技术

Pytorch ValueError: 优化器接收到空参数列表

xiaolong · 2025年5月23日 · 0 Comment

在尝试创建一个神经网络并使用Pytorch进行优化时，…

IT技术

强化学习中探索/利用的最佳实践

xiaolong · 2025年5月22日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

使用强化学习教机器人在达到终止状态前在网格世界中收集物品

xiaolong · 2025年5月22日 · 0 Comment

我的问题如下。我有一个简单的网格世界： https:/…

IT技术

我需要帮助理解强化学习代码

xiaolong · 2025年5月22日 · 0 Comment

我一直在尝试解决OpenAI的MountainCarC…

IT技术

Chainer如何保存和加载DQN模型

xiaolong · 2025年5月22日 · 0 Comment

我正在学习深度强化学习框架Chainer。我按照一个…