Home IT技术 Gradient Temporal Difference Lambda without Function Approximation

Gradient Temporal Difference Lambda without Function Approximation

IT技术 xiaolong · 2025年4月10日 · 0 Comment

在每一种GTD(λ)的形式化描述中，似乎都将其定义为基于函数逼近的方法，使用θ和某个权重向量w。

我理解梯度方法的广泛需求源于其在线性函数逼近器上的收敛特性，但我希望利用GTD来进行重要性抽样。

是否有可能在不使用函数逼近的情况下利用GTD？如果可以，更新方程是如何形式化的？

回答：

我理解当你说“无函数逼近”时，你的意思是将价值函数V表示为表格。在这种情况下，V的表格表示也可以被视为一种函数逼近器。

例如，如果我们定义近似的价值函数为：

那么，使用表格表示，每个状态就有同样多的特征，对于给定状态s的特征向量，除了s之外所有状态的特征值为零（s的状态值为1），参数向量theta存储每个状态的值。因此，GTD以及其他算法可以在不做任何修改的情况下以表格方式使用。

machine-learning reinforcement-learning temporal-difference

发表回复取消回复