reinforcement-learning

IT技术

K-Arms Bandit Epsilon-Greedy Policy

xiaolong · 2025年6月1日 · 0 Comment

我一直在尝试实现强化学习书籍中的练习2.5 我根据这个…

IT技术

监督学习与离线（批处理）强化学习

xiaolong · 2025年5月31日 · 0 Comment

我能找到的大多数资料（例如David Silver的在…

IT技术

DQN Pytorch损失持续增加

xiaolong · 2025年5月31日 · 0 Comment

我正在使用pytorch实现一个简单的DQN算法，以解…

IT技术

基于批次而非周期的指数衰减学习率

xiaolong · 2025年5月30日 · 0 Comment

我想基于时间步长而非周期来调整学习率，这与大多数调度器…

IT技术

Keras fit 花费太多时间

xiaolong · 2025年5月30日 · 0 Comment

我最近在学习深度强化学习，想将所学应用到使用 Kera…

IT技术

使用自定义模拟器与Ray RLlib

xiaolong · 2025年5月30日 · 0 Comment

我刚开始接触Ray RLlib，并且在使用我们团队制作…

IT技术

ModuleNotFoundError: 未找到名为’baselines.common’的模块

xiaolong · 2025年5月30日 · 0 Comment

我在Google Colab中运行了以下代码: fro…

IT技术

如何获取梯度的二阶矩

xiaolong · 2025年5月30日 · 0 Comment

在OpenAI Five论文中提到，“梯度在每个参数上…

IT技术

RL: 自我对弈结合在线和离线策略

xiaolong · 2025年5月30日 · 0 Comment

我尝试使用PPO实现自我对弈。假设我们有一个包含两个智…

IT技术

如何将自定义强化学习模型导入Unity？

xiaolong · 2025年5月29日 · 0 Comment

Unity提供了两种训练智能体的强化学习算法：PPO和…

IT技术

如何使用生成器函数一次从CSV文件中检索一行

xiaolong · 2025年5月29日 · 0 Comment

我需要从CSV文件中提取一行，作为强化学习类环境中的观…

IT技术

TensorFlow模型的fit和train_on_batch的区别

xiaolong · 2025年5月28日 · 0 Comment

我正在构建一个普通的DQN模型来玩OpenAI gym…

IT技术

使用Keras实现对决DQN

xiaolong · 2025年5月28日 · 0 Comment

我正在尝试实现对决DQN，但是如果我按照这种方式构建神…

IT技术

‘UnityEnvironment’对象没有属性’get_agent_groups’ ( mlagents_envs 0.16.1 )

xiaolong · 2025年5月28日 · 0 Comment

python版本为 Python 3.6.10 :: …

IT技术

在普通家用电脑上使用Q-learning时，我可以处理多少个状态？

xiaolong · 2025年5月27日 · 0 Comment

当我想实现像Q-learning这样的强化学习算法时，…

IT技术

Tensorflow无法为节点找到有效设备，即使转换为float32

xiaolong · 2025年5月27日 · 0 Comment

你好，我在尝试运行我的模型时遇到了一个错误我使用的是…

IT技术

如何定义我的网格世界环境的状态？

xiaolong · 2025年5月27日 · 0 Comment

我想要解决的问题实际上并不简单，但这是一个帮助我解决更…

IT技术

Q值过高，值变成NaN，Q-Learning Tensorflow

xiaolong · 2025年5月27日 · 0 Comment

我编写了一个非常简单的游戏，运行方式如下：给定一个4…

IT技术

如何保存DDPG模型？

xiaolong · 2025年5月27日 · 0 Comment

我尝试使用saver方法保存模型（我在DDPG类中使用…

IT技术

如何在LSTM模型中限制序列预测以匹配特定模式？

xiaolong · 2025年5月27日 · 0 Comment

我已经使用LSTM模型创建了一个词级文本生成器。但在我…

IT技术

强化学习中导致同一状态的多种动作

xiaolong · 2025年5月27日 · 0 Comment

我在这个领域还比较新，但我找不到任何与这个问题相似的情…

IT技术

为什么强盗问题在强化学习中也被称为一步/状态的MDP？

xiaolong · 2025年5月26日 · 0 Comment

我们所说的1步/状态的MDP（马尔可夫决策过程）是什么…

IT技术

LSTM网络用于空间入侵者强化学习（Keras）

xiaolong · 2025年5月26日 · 0 Comment

我刚开始接触强化学习，尝试使用LSTM来训练一个空间入…

IT技术

Dyna-Q与规划对比n步Q学习

xiaolong · 2025年5月26日 · 0 Comment

我在阅读萨顿和巴托的《强化学习》一书，书中用一个迷宫问…

IT技术

DeepQNetwork中的memory_size和memory_counter

xiaolong · 2025年5月26日 · 0 Comment

DeepQNetwork中的memory_size和m…