Home markov-decision-process

markov-decision-process

为什么强盗问题在强化学习中也被称为一步/状态的MDP？

xiaolong · 2025年5月26日 · 0 Comment

我们所说的1步/状态的MDP（马尔可夫决策过程）是什么…

如何将UNO建模为部分可观察马尔可夫决策过程(POMDP)

xiaolong · 2025年4月4日 · 0 Comment

我正在尝试将UNO纸牌游戏建模为部分可观察马尔可夫决策…

从已观察到的转换中确定马尔可夫决策过程

xiaolong · 2025年4月4日 · 0 Comment

在马尔可夫决策过程中观察到了以下转换。尝试确定它 R …

在部分可观察马尔可夫决策过程中，什么是“可控动作”？

xiaolong · 2025年4月4日 · 0 Comment

我有一些关于部分可观察马尔可夫决策过程（POMDP）的…