强化学习与深度强化学习的区别是什么?

深度强化学习与强化学习的区别是什么?我基本了解强化学习的概念,但在这个语境中,具体术语深度代表什么意思呢?


回答:

强化学习

在强化学习中,智能体尝试在给定状态下选择最佳行动。

例如,在视频游戏《吃豆人》中,状态空间将是您所在的2D游戏世界,周围的物品(如豆子、敌人、墙壁等),而行动则是通过该2D空间移动(向上/向下/向左/向右)。

因此,根据游戏世界的状态,智能体需要选择最佳行动以最大化奖励。通过强化学习的试错过程,它通过这些(状态, 行动)对积累“知识”,即它可以判断给定(状态, 行动)对是否会带来正面或负面的奖励。我们称这个值为Q(状态, 行动)

存储这种知识的一种简单方法是使用如下表格

状态 | 行动 | Q(状态, 行动)---------------------------------  ... |   ...  |   ...

(状态, 行动)空间可能非常大

然而,当游戏变得复杂时,知识空间可能会变得非常庞大,存储所有(状态, 行动)对将不再可行。如果从根本上考虑,即使是稍微不同的状态仍然是一个独特的状态(例如,敌人通过同一条走廊但位置不同)。您可以使用能够概括知识的东西,而不是存储查找每一个细微的独特状态。

因此,您可以创建一个神经网络,例如,它可以预测输入(状态, 行动)的奖励(或者根据状态选择最佳行动,根据您的看法)。

用神经网络近似Q

因此,您实际上拥有一个根据输入(状态, 行动)预测Q的神经网络。这比像我们在上面的表格中那样存储每一个可能的值要更可行。

Q = 神经网络.预测(状态, 行动)

深度强化学习

深度神经网络

为了能够在复杂的游戏中做到这一点,神经网络可能需要是“深度”的,意味着几个隐藏层可能不足以捕捉到所有那些知识的细微细节,因此使用深度神经网络(许多隐藏层)。

额外的隐藏层允许网络内部生成特征,这些特征可以帮助它学习和概括可能在浅层网络上无法解决的复杂问题。

结语

简而言之,深度神经网络使得强化学习能够应用于更大的问题。您可以使用任何函数近似器来近似Q,而不仅仅是神经网络,如果您选择使用神经网络,它并不绝对必须是深度的。只是最近研究人员使用它们取得了很大的成功。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注