我能找到的大多数资料(例如David Silver的在线课程)都提供了关于监督学习和强化学习之间关系的讨论。然而,这些讨论实际上是对比了监督学习与在线强化学习,在这种情况下,智能体在环境中运行(或模拟交互)以获取反馈,而对底层动态的了解有限。
我更好奇的是离线(批处理)强化学习,其中数据集(收集的学习经验)是预先给定的。那么,与监督学习相比有哪些不同?它们可能有哪些相似之处?
回答:
我更好奇的是强化学习的离线(批处理)设置,其中数据集(收集的学习经验)是预先给定的。那么,与监督学习相比有哪些不同?它们可能有哪些相似之处?
在在线设置中,监督学习与强化学习之间的根本区别在于探索的需要以及强化学习中探索/利用的权衡。然而,在离线设置中也有几个区别,这使得强化学习成为比监督学习更困难/更丰富的问题。我能想到的几个区别如下:
-
在强化学习中,智能体接收到被称为“评估性反馈”的标量奖励,这给智能体提供了一些关于所采取行动质量的反馈,但它并不会告诉智能体这个行动是否是最优行动。相比之下,在监督学习中,智能体接收到被称为“指导性反馈”的反馈:对于学习者做出的每个预测,它会收到一个反馈(标签),说明最优行动/预测是什么。Rich Sutton的书中前几章详细介绍了指导性反馈与评估性反馈之间的区别。本质上,强化学习是使用稀疏标签进行优化,对于某些行动,你可能完全得不到任何反馈,而在其他情况下,反馈可能会延迟,这就产生了信用分配问题。
-
在强化学习中,你有一个时间维度,目标是找到一个最优策略,将状态映射到行动,覆盖一定的时间范围(时间步数)。如果时间范围T=1,那么它就是像监督学习中的一次性预测问题,但如果T>1,那么它就是一个顺序优化问题,你不仅要在一个状态中找到最优行动,还要在多个状态中找到最优行动,这一点进一步复杂化,因为在一个状态中采取的行动可能会影响在未来状态中应该采取的行动(即它是动态的)。
-
在监督学习中,有一个固定的独立同分布(i.i.d)分布,从中抽取数据点(这是常见的假设)。在强化学习中,没有固定的分布,而是这个分布取决于所遵循的策略,而且通常这个分布不是独立同分布的,而是相关的。
因此,强化学习是一个比监督学习丰富得多的问题。实际上,可以将任何监督学习任务转换为强化学习任务:监督任务的损失函数可以用来定义奖励函数,较小的损失对应较大的奖励。尽管不清楚为什么有人会想这样做,因为这会将监督问题转换为更困难的强化学习问题。强化学习做出的假设比监督学习少,因此通常是一个比监督学习更难解决的问题。然而,反之则不可能,通常不可能将强化学习问题转换为监督学习问题。