我有一些关于部分可观察马尔可夫决策过程(POMDP)的疑问。
-
在部分可观察马尔可夫决策过程中,什么是可控动作?或者在隐藏的马尔可夫状态中没有可控动作吗?
-
在通过价值或策略迭代计算策略时,我们能否说POMDP是一个专家系统(因为我们对环境进行了建模)?而当使用Q-learning时,它在智能或适应变化环境方面是一个更灵活的系统吗?
回答:
动作
可控动作是决策者做出的选择结果。在经典的POMDP老虎问题中,老虎藏在两扇门中的一扇后面。在每个时间步,决策者可以选择倾听或打开其中一扇门。此情景中的动作是{倾听,打开左门,打开右门}。从一个状态到另一个状态的转换函数取决于前一个状态和所选择的动作。
在隐藏马尔可夫模型(HMM)中,决策者没有动作。在老虎问题的情境中,这意味着参与者只能倾听而不能开门。在这种情况下,转换函数仅依赖于前一个状态,因为没有动作。
关于老虎问题的更多细节,请参见Kaelbling、Littman和Cassandra 1998年的POMDP论文,第5.1节。还有一个更入门的演练可在教程中找到。
适应性
你问题中的基本直觉是正确的,但可以进一步完善。POMDP是一类模型,而Q-learning是一种解决方案技术。你问题中的基本区别在于基于模型和无模型方法之间的区别。POMDP是基于模型的,尽管部分可观察性允许额外的不确定性。强化学习可以在无模型的环境中应用,使用Q-learning。无模型方法对于非平稳问题将更加灵活。话虽如此,根据问题的复杂性,你可以将非平稳性纳入模型本身,并将其视为一个MDP。
关于这些非平稳建模权衡的非常彻底的讨论可以在这个问题的回答中找到。
最后,POMDP可以被视为专家系统是正确的。Mazumdar等人(2017年)建议将马尔可夫决策过程(MDP)视为专家系统。