在Sutton的强化学习书籍中,关于蒙特卡洛策略评估部分,第111页提到注意,估计单个状态价值的计算开销与状态数量无关
。然而,考虑到蒙特卡洛方法的以下特点:
-
一个状态的平均回报是从该状态首次遇到直到情节结束时计算的
-
状态越多,情节结束的时间可能越长
那么,我对这句话的理解有什么遗漏的地方吗?
回答:
蒙特卡洛方法的一个重要事实是,每个状态的估计是独立的。
如果每个状态的计算是独立的,那么显然在确定单个状态的价值估计时,不同可能状态的数量并不重要。正是因为这种独立性,蒙特卡洛系统才有用。
我认为你可能混淆了大状态系统整体计算时间会更长的观点,但由于17点获胜的概率不影响18点获胜,这些状态之间是相互独立的。
编辑:我认为这个问题可能更适合在统计或机器学习的Stack Overflow页面上讨论。