为什么强盗问题在强化学习中也被称为一步/状态的MDP?

我们所说的1步/状态的MDP(马尔可夫决策过程)是什么…