reinforcement-learning – 第 4 页

IT技术

如何在强化学习（Q-learning）中添加约束

xiaolong · 2025年4月14日 · 0 Comment

我想知道如何在Q-learning中添加约束。我每次采…

IT技术

近端策略优化中的状态可以包含历史信息吗？

xiaolong · 2025年4月14日 · 0 Comment

例如，时间步t的状态是否可以由t时刻和t-1时刻的状态…

IT技术

Q学习算法在不使用ε-贪婪策略的情况下是否会产生相同的结果？

xiaolong · 2025年4月14日 · 0 Comment

我在尝试实现Q学习算法，但没有足够的时间通过ε-贪婪策…

IT技术

OpenAI gym 玩家模式

xiaolong · 2025年4月14日 · 0 Comment

有人知道如何以玩家的身份运行 OpenAI gym 环…

IT技术

策略梯度方法用于Open AI Gym Cartpole

xiaolong · 2025年4月14日 · 0 Comment

我是一个强化学习的初学者，正在尝试使用Tensorfl…

IT技术

如何理解强化学习中的近端策略优化算法？

xiaolong · 2025年4月13日 · 0 Comment

我了解强化学习的基础知识，但要能够阅读arxiv PP…

IT技术

Python游戏神经网络。如何设置输入

xiaolong · 2025年4月12日 · 0 Comment

我正在用pygame制作一款坦克游戏，玩家可以操控坦克…

IT技术

使用强化学习解决分类问题

xiaolong · 2025年4月12日 · 0 Comment

已关闭。此问题不符合 Stack Overflow …

IT技术

### 理解策略和价值函数的强化学习

xiaolong · 2025年4月12日 · 0 Comment

已关闭。此问题不涉及编程或软件开发。目前不接受回答。…

IT技术

强化学习在有限状态和动作下的总策略数

xiaolong · 2025年4月12日 · 0 Comment

我对强化学习是新手。所以这个问题可能看起来很简单假设…

IT技术

策略迭代与值迭代

xiaolong · 2025年4月12日 · 0 Comment

在强化学习中，我试图理解策略迭代和值迭代之间的区别。虽…

IT技术

OpenAI gym and Python threading

xiaolong · 2025年4月12日 · 0 Comment

我正在研究A3C/ACER的一个变体，我有多个工作线程…

IT技术

无法理解一个流行深度Q学习程序的这一行

xiaolong · 2025年4月12日 · 0 Comment

https://github.com/yenchenl…

IT技术

强化学习中相同状态的不同奖励

xiaolong · 2025年4月12日 · 0 Comment

我想为Chrome的恐龙游戏（你可以在离线时玩的那个）…

IT技术

使用强化学习选择最接近原点的点

xiaolong · 2025年4月12日 · 0 Comment

我正在尝试使用强化学习从一组给定的点中反复选择最接近原…

IT技术

强化学习在俄罗斯方块中的应用

xiaolong · 2025年4月12日 · 0 Comment

我大致明白该如何操作，但我不理解如何保存（状态，值）对…

IT技术

多臂老虎机练习中的违反直觉的结果

xiaolong · 2025年4月12日 · 0 Comment

我正在学习Sutton & Barto的《强化…

IT技术

Q-learning中的探索与利用

xiaolong · 2025年4月12日 · 0 Comment

已关闭。此问题与编程或软件开发无关。目前不接受回答。…

IT技术

在SARSA中加入转移概率

xiaolong · 2025年4月12日 · 0 Comment

我正在用C++实现一个SARSA(lambda)模型，…

IT技术

Q-learning中的迭代和奖励

xiaolong · 2025年4月12日 · 0 Comment

已关闭。该问题与编程或软件开发无关。目前不接受回答。…

IT技术

如何访问Tensorflow中循环单元的权重？

xiaolong · 2025年4月12日 · 0 Comment

在深度Q学习任务中，提高稳定性的一种方法是保持一组用于…

IT技术

国际象棋评估函数的训练

xiaolong · 2025年4月12日 · 0 Comment

我即将基于强化学习编写一个国际象棋引擎。我希望训练一个…

IT技术

用神经网络近似Q函数的奖励函数

xiaolong · 2025年4月12日 · 0 Comment

在Q学习中，如果我的Q函数由一个标准的前馈神经网络近似…

IT技术

Q-learning 更新频率

xiaolong · 2025年4月12日 · 0 Comment

在Q-learning中，智能体从当前状态出发，在每个…

IT技术

Q-learning与动态规划

xiaolong · 2025年4月11日 · 0 Comment

经典的Q-learning算法使用查找表（而不是函数近…