在马尔可夫决策过程中观察到了以下转换。尝试确定它
R A S′ S 0 U C B-1 L E C 0 D C A-1 R E C 0 D C A+1 R D C 0 U C B+1 R D C
我需要找出状态、转换、奖励和转换的概率。我已经解决了所有问题,除了概率,我不知道如何计算。如果有人能帮助,我只需要知道从哪里开始
回答:
对于状态 B
,动作 U
总是导致新状态 C
。因此,P(C|B,U)=1
(你也可以争辩说 P(C|B)=1
)。P(D|C,R)=2/3
,因为在三次中的两次,状态 C
中的动作 R
导致了 D
。