强化学习与深度强化学习的区别是什么？

深度强化学习与强化学习的区别是什么？我基本了解强化学习的概念，但在这个语境中，具体术语深度代表什么意思呢？

回答：

在强化学习中，智能体尝试在给定状态下选择最佳行动。

例如，在视频游戏《吃豆人》中，状态空间将是您所在的2D游戏世界，周围的物品（如豆子、敌人、墙壁等），而行动则是通过该2D空间移动（向上/向下/向左/向右）。

因此，根据游戏世界的状态，智能体需要选择最佳行动以最大化奖励。通过强化学习的试错过程，它通过这些(状态, 行动)对积累“知识”，即它可以判断给定(状态, 行动)对是否会带来正面或负面的奖励。我们称这个值为Q(状态, 行动)。

存储这种知识的一种简单方法是使用如下表格

状态 | 行动 | Q(状态, 行动)---------------------------------  ... |   ...  |   ...

(状态, 行动)空间可能非常大

然而，当游戏变得复杂时，知识空间可能会变得非常庞大，存储所有(状态, 行动)对将不再可行。如果从根本上考虑，即使是稍微不同的状态仍然是一个独特的状态（例如，敌人通过同一条走廊但位置不同）。您可以使用能够概括知识的东西，而不是存储和查找每一个细微的独特状态。

因此，您可以创建一个神经网络，例如，它可以预测输入(状态, 行动)的奖励（或者根据状态选择最佳行动，根据您的看法）。

用神经网络近似Q值

因此，您实际上拥有一个根据输入(状态, 行动)预测Q值的神经网络。这比像我们在上面的表格中那样存储每一个可能的值要更可行。

Q = 神经网络.预测(状态, 行动)

深度神经网络

为了能够在复杂的游戏中做到这一点，神经网络可能需要是“深度”的，意味着几个隐藏层可能不足以捕捉到所有那些知识的细微细节，因此使用深度神经网络（许多隐藏层）。

额外的隐藏层允许网络内部生成特征，这些特征可以帮助它学习和概括可能在浅层网络上无法解决的复杂问题。

简而言之，深度神经网络使得强化学习能够应用于更大的问题。您可以使用任何函数近似器来近似Q，而不仅仅是神经网络，如果您选择使用神经网络，它并不绝对必须是深度的。只是最近研究人员使用它们取得了很大的成功。

学技术