Q-learning 没有最终状态是否可行?

我需要用 Q-learning 解决这个问题。实际上,我需要评估一个基于 Q-learning 的策略。

我是一名旅游经理。

我有 n 个酒店,每个酒店可以容纳不同数量的人。

每当我将一个人安排进酒店时,我会根据所选择的房间获得相应的奖励。

如果我想的话,我也可以“谋杀”这个人,这样他就不会进入任何酒店,但这会给我带来不同的奖励。(好吧,这是个玩笑……但这是为了说明我可以进行自我转换,所以在采取这个行动后,房间里的人数不会改变)。

  • 我的状态是一个包含每个酒店人数的向量。

  • 我的行动是一个由零和一来组成的向量,它告诉我将新人安置在哪里。

  • 我的奖励矩阵由我从状态之间的每次转换(包括自我转换)中获得的奖励组成。

现在,由于我可以接待无限数量的人(即我可以填满酒店,但也可以继续“杀死”他们),我该如何构建 Q 矩阵呢?没有 Q 矩阵,我就无法获得策略,也就无法对其进行评估……

我哪里看错了?我应该选择一个随机状态作为最终状态吗?我完全错过了重点吗?


回答:

强化学习问题本身并不需要最终状态。它们需要的是奖励状态。因此,只要你有一些奖励,你就可以开始了,我想是这样。

我对这种类型的强化学习问题没有太多经验。正如一位评论者所建议的,这听起来像是非常庞大的状态空间。如果你习惯使用离散方法,你可以通过限制问题范围(有限数量的人和酒店/房间)来获得一个好的开始,并通过在较小的状态矩阵上应用 Q-learning 来学习一些关于你问题的知识。

或者,你可以直接采用能够处理无限状态空间的方法,比如神经网络。

根据我的经验,如果你有耐心先尝试解决较小的问题,你将更好地准备好解决下一个更大的问题。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注