reinforcement-learning – 第 8 页

IT技术

关于Q学习中“情节”定义的困惑

xiaolong · 2025年4月4日 · 0 Comment

在阅读了一些教程后，我仍然不确定“情节”的定义。情节是…

IT技术

如何正确实现DQN算法

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试实现DeepMind在这篇论文中介绍的深度Q…

IT技术

在部分可观察马尔可夫决策过程中，什么是“可控动作”？

xiaolong · 2025年4月4日 · 0 Comment

我有一些关于部分可观察马尔可夫决策过程（POMDP）的…

IT技术

AlphaGo Zero的棋盘评估函数使用多个时间步作为输入…为什么？

xiaolong · 2025年4月4日 · 0 Comment

根据AlphaGo备忘单，AlphaGo Zero使用…

IT技术

深度强化学习参数和训练时间用于简单游戏

xiaolong · 2025年4月4日 · 0 Comment

我想了解深度强化学习算法的工作原理，以及在给定环境中训…

IT技术

强化学习中奖励政策的重要性是什么？

xiaolong · 2025年4月4日 · 0 Comment

我们为达到目标设定+1的奖励，而为达到不希望的状态设定…

IT技术

[深度Q网络]如何在Tensorflow的自动微分中排除操作

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试使用Tensorflow创建一个类似于Dee…

IT技术

为什么RMSProp被认为是“泄漏”的？

xiaolong · 2025年4月4日 · 0 Comment

decay_rate = 0.99 # RMSProp…

IT技术

如何在强化学习程序中设置即时奖励？

xiaolong · 2025年4月4日 · 0 Comment

我想让我的强化学习代理尽可能快地达到目标，同时尽量减少…

IT技术

### 使用状态-动作-状态奖励结构和状态为行、动作为列的Q矩阵的Q学习

xiaolong · 2025年4月4日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

OpenAI gym: 如何获取完整的ATARI环境列表

xiaolong · 2025年4月4日 · 0 Comment

我已经安装了OpenAI的gym和ATARI环境。我知…

IT技术

### 强化学习中值迭代的基础情况

xiaolong · 2025年4月4日 · 0 Comment

已关闭。这个问题与编程或软件开发无关。目前不接受回答…

IT技术

直接/间接与监督/无监督/强化学习

xiaolong · 2025年4月4日 · 0 Comment

直接/间接学习与监督/无监督/强化学习之间是否存在对应…

IT技术

什么是NEAT与强化学习之间的关系？

xiaolong · 2025年4月4日 · 0 Comment

据我所知，NEAT（增强拓扑的神经进化）是一种利用进化…

IT技术

Q-learning with 2D actions and 2D states

xiaolong · 2025年4月4日 · 0 Comment

我的问题如下：在每个状态下，智能体需要调整发电厂锅炉…

IT技术

AI Player表现不佳？为什么？

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试实现一个使用Q-learning玩飞行棋的智…

IT技术

函数逼近：瓦片编码与高度离散化的状态空间有何不同？

xiaolong · 2025年4月4日 · 0 Comment

我正在从连续状态空间的离散化过渡到函数逼近。我的动作和…

IT技术

在Q学习中添加约束并在违反约束时分配奖励

xiaolong · 2025年4月4日 · 0 Comment

我最近参加了一个强化学习课程，正在为一个电力管理应用编…

IT技术

Java中的马尔可夫模型决策过程

xiaolong · 2025年4月4日 · 0 Comment

我正在用Java编写一个辅助学习算法。我遇到了一个数…

IT技术

Qlearning和奖励的索引

xiaolong · 2025年4月4日 · 0 Comment

我的问题可能很简单，但我对著名的Q-learning方…

IT技术

特萨罗的TD-Gammon中的棋盘编码

xiaolong · 2025年4月4日 · 0 Comment

目前我正在尝试让特萨罗的TD-Gammon运作起来。然…

IT技术

什么是Q-learning和值迭代之间的区别？

xiaolong · 2025年4月4日 · 0 Comment

在强化学习中，Q-learning与值迭代有何不同？ …

IT技术

Q Learning Algorithm for Tic Tac Toe

xiaolong · 2025年4月4日 · 0 Comment

我不明白如何更新井字游戏的Q值。我阅读了所有相关内容，…

IT技术

使用神经网络进行Q-Learning的问题

xiaolong · 2025年4月4日 · 0 Comment

我已经按照以下文档实现了Q-Learning， htt…

IT技术

神经网络与时间差分学习

xiaolong · 2025年4月4日 · 0 Comment

我读了几篇关于时间差分学习的论文和讲座（其中一些与神经…