为什么值迭代算法的终止条件(例如 http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java )
在马尔可夫决策过程(MDP)中是
||Ui+1-Ui||< error*(1-gamma)/gamma,其中
Ui 是效用向量
Ui+1 是更新后的效用向量
error – 算法中使用的误差界限
gamma – 算法中使用的折扣因子
“error*(1-gamma)/gamma”从何而来?“除以gamma”是因为每一步都被gamma折扣了吗?但为什么是error*(1-gamma)?误差需要多大?
回答:
这被称为Bellman误差或Bellman残差。
参见 Williams和Baird,1993年关于在MDP中的应用。
参见 Littman,1994年关于在部分可观察马尔可夫决策过程(POMDP)中的应用。