Home IT技术值迭代的收敛性

值迭代的收敛性

IT技术 xiaolong · 2025年4月4日 · 0 Comment

为什么值迭代算法的终止条件（例如 http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java ）

在马尔可夫决策过程（MDP）中是

||Ui+1-Ui||< error*(1-gamma)/gamma，其中

Ui 是效用向量
Ui+1 是更新后的效用向量

error – 算法中使用的误差界限

gamma – 算法中使用的折扣因子

“error*(1-gamma)/gamma”从何而来？“除以gamma”是因为每一步都被gamma折扣了吗？但为什么是error*(1-gamma)？误差需要多大？

回答：

这被称为Bellman误差或Bellman残差。

参见 Williams和Baird，1993年关于在MDP中的应用。

参见 Littman，1994年关于在部分可观察马尔可夫决策过程（POMDP）中的应用。

algorithm artificial-intelligence convergence iteration markov-chains

发表回复取消回复