Q-learning 没有最终状态是否可行？

我需要用 Q-learning 解决这个问题。实际上，我需要评估一个基于 Q-learning 的策略。

我是一名旅游经理。

我有 n 个酒店，每个酒店可以容纳不同数量的人。

每当我将一个人安排进酒店时，我会根据所选择的房间获得相应的奖励。

如果我想的话，我也可以“谋杀”这个人，这样他就不会进入任何酒店，但这会给我带来不同的奖励。（好吧，这是个玩笑……但这是为了说明我可以进行自我转换，所以在采取这个行动后，房间里的人数不会改变）。

现在，由于我可以接待无限数量的人（即我可以填满酒店，但也可以继续“杀死”他们），我该如何构建 Q 矩阵呢？没有 Q 矩阵，我就无法获得策略，也就无法对其进行评估……

我哪里看错了？我应该选择一个随机状态作为最终状态吗？我完全错过了重点吗？

回答：

强化学习问题本身并不需要最终状态。它们需要的是奖励状态。因此，只要你有一些奖励，你就可以开始了，我想是这样。

我对这种类型的强化学习问题没有太多经验。正如一位评论者所建议的，这听起来像是非常庞大的状态空间。如果你习惯使用离散方法，你可以通过限制问题范围（有限数量的人和酒店/房间）来获得一个好的开始，并通过在较小的状态矩阵上应用 Q-learning 来学习一些关于你问题的知识。

或者，你可以直接采用能够处理无限状态空间的方法，比如神经网络。

学技术