我们所说的1步/状态的MDP(马尔可夫决策过程)是什么意思?
回答:
让我们考虑一个有n个动作的1状态MDP。无论你采取哪个动作,你都将停留在同一个状态。不过,你会得到一个奖励,这个奖励仅取决于你所采取的动作。如果你希望在这个环境中最大化长期奖励,你需要做的就是判断n个可用选择(动作)中哪个是最好的。
这正是强盗问题的本质。
我们所说的1步/状态的MDP(马尔可夫决策过程)是什么意思?
回答:
让我们考虑一个有n个动作的1状态MDP。无论你采取哪个动作,你都将停留在同一个状态。不过,你会得到一个奖励,这个奖励仅取决于你所采取的动作。如果你希望在这个环境中最大化长期奖励,你需要做的就是判断n个可用选择(动作)中哪个是最好的。
这正是强盗问题的本质。