我需要用 Q-learning 解决这个问题。实际上,我需要评估一个基于 Q-learning 的策略。
我是一名旅游经理。
我有 n 个酒店,每个酒店可以容纳不同数量的人。
每当我将一个人安排进酒店时,我会根据所选择的房间获得相应的奖励。
如果我想的话,我也可以“谋杀”这个人,这样他就不会进入任何酒店,但这会给我带来不同的奖励。(好吧,这是个玩笑……但这是为了说明我可以进行自我转换,所以在采取这个行动后,房间里的人数不会改变)。
-
我的状态是一个包含每个酒店人数的向量。
-
我的行动是一个由零和一来组成的向量,它告诉我将新人安置在哪里。
- 我的奖励矩阵由我从状态之间的每次转换(包括自我转换)中获得的奖励组成。
现在,由于我可以接待无限数量的人(即我可以填满酒店,但也可以继续“杀死”他们),我该如何构建 Q 矩阵呢?没有 Q 矩阵,我就无法获得策略,也就无法对其进行评估……
我哪里看错了?我应该选择一个随机状态作为最终状态吗?我完全错过了重点吗?
回答:
强化学习问题本身并不需要最终状态。它们需要的是奖励状态。因此,只要你有一些奖励,你就可以开始了,我想是这样。
我对这种类型的强化学习问题没有太多经验。正如一位评论者所建议的,这听起来像是非常庞大的状态空间。如果你习惯使用离散方法,你可以通过限制问题范围(有限数量的人和酒店/房间)来获得一个好的开始,并通过在较小的状态矩阵上应用 Q-learning 来学习一些关于你问题的知识。
或者,你可以直接采用能够处理无限状态空间的方法,比如神经网络。
根据我的经验,如果你有耐心先尝试解决较小的问题,你将更好地准备好解决下一个更大的问题。