Q-learning与动态规划

经典的Q-learning算法使用查找表(而不是函数近似)是否等同于动态规划?


回答:

动态规划是一个涵盖许多算法的总称。Q-Learning则是一种特定的算法。因此,不,它们并非同一概念。

如果你是指动态规划中的值迭代策略迭代,仍然不同。这些算法是“规划”方法。你必须提供一个转移和一个奖励函数,它们会迭代计算一个函数和一个最优策略

Q-Learning是一种无模型的强化学习方法。这里的“无模型”并不是因为它不使用机器学习模型或类似的东西,而是因为它们不需要,也不使用环境模型(也称为MDP)来获得最优策略。你还有“基于模型”的方法。与动态规划方法不同,这些方法基于学习一个模型,而不仅仅是使用一个模型。与无模型方法不同,它们不会在估计值后丢弃样本,而是尝试重建转移和奖励函数以获得更好的性能。

基于模型的方法结合了无模型规划算法,以较少的样本量获得与无模型方法(Q-Learning)相同的好结果,并且不需要像动态规划方法(值/策略迭代)那样使用模型。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注