我的问题与强化学习的实现无关,而是想了解在每个状态都是终止状态的情况下,强化学习的概念。
我举个例子:一个机器人在学习踢足球,仅限于射门。奖励是射门后球与球门柱之间的距离。状态是由多个特征组成的数组,动作是由三维力组成的数组。
如果我们考虑情节性的强化学习,我觉得这种方法似乎不太合理。确实,机器人射门后立即获得奖励:每个情节都是一个终止情节。将下一个状态传递给系统似乎没有意义,因为算法并不关心它以优化奖励 – 在这种情况下,我会使用Actor-Critic方法来处理连续的状态和动作空间。有人可能会争辩说,不同的监督学习方法,如深度神经网络,可能更有效。但我不确定,因为在那种情况下,算法无法在远离训练集的输入上取得良好效果。据我所见,强化学习在这种情况下能够更好地进行泛化。
问题是:强化学习对于这个问题是否是一种有效的方法?在这种情况下,终止状态是如何处理的?你是否知道文献中有类似的例子?
回答:
强化学习解决了你没有的问题
强化学习方法主要针对的问题是将奖励归因于更早的动作,找出如何处理常见复杂情况的方法,即没有明确反馈告诉你做了什么(以及何时)正确或错误。你没有这种问题 – 你有直接与动作相关的即时奖励。
基本的监督学习方法在这方面会表现得很好,没有理由引入强化学习的“机制”。