Q-learning与动态规划

经典的Q-learning算法使用查找表（而不是函数近似）是否等同于动态规划？

回答：

动态规划是一个涵盖许多算法的总称。Q-Learning则是一种特定的算法。因此，不，它们并非同一概念。

如果你是指动态规划中的值迭代或策略迭代，仍然不同。这些算法是“规划”方法。你必须提供一个转移和一个奖励函数，它们会迭代计算一个值函数和一个最优策略。

Q-Learning是一种无模型的强化学习方法。这里的“无模型”并不是因为它不使用机器学习模型或类似的东西，而是因为它们不需要，也不使用环境模型（也称为MDP）来获得最优策略。你还有“基于模型”的方法。与动态规划方法不同，这些方法基于学习一个模型，而不仅仅是使用一个模型。与无模型方法不同，它们不会在估计值后丢弃样本，而是尝试重建转移和奖励函数以获得更好的性能。

基于模型的方法结合了无模型和规划算法，以较少的样本量获得与无模型方法（Q-Learning）相同的好结果，并且不需要像动态规划方法（值/策略迭代）那样使用模型。

学技术

Q-learning与动态规划

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复