Home IT技术为什么强盗问题在强化学习中也被称为一步/状态的MDP？

为什么强盗问题在强化学习中也被称为一步/状态的MDP？

IT技术 xiaolong · 2025年5月26日 · 0 Comment

我们所说的1步/状态的MDP（马尔可夫决策过程）是什么意思？

回答：

让我们考虑一个有n个动作的1状态MDP。无论你采取哪个动作，你都将停留在同一个状态。不过，你会得到一个奖励，这个奖励仅取决于你所采取的动作。如果你希望在这个环境中最大化长期奖励，你需要做的就是判断n个可用选择（动作）中哪个是最好的。

这正是强盗问题的本质。

bandit machine-learning markov-decision-process mdp reinforcement-learning

发表回复取消回复