强化学习在每个状态都是终止状态的情况下的应用

我的问题与强化学习的实现无关,而是想了解在每个状态都是终止状态的情况下,强化学习的概念。

我举个例子:一个机器人在学习踢足球,仅限于射门。奖励是射门后球与球门柱之间的距离。状态是由多个特征组成的数组,动作是由三维力组成的数组。

如果我们考虑情节性的强化学习,我觉得这种方法似乎不太合理。确实,机器人射门后立即获得奖励:每个情节都是一个终止情节。将下一个状态传递给系统似乎没有意义,因为算法并不关心它以优化奖励 – 在这种情况下,我会使用Actor-Critic方法来处理连续的状态和动作空间。有人可能会争辩说,不同的监督学习方法,如深度神经网络,可能更有效。但我不确定,因为在那种情况下,算法无法在远离训练集的输入上取得良好效果。据我所见,强化学习在这种情况下能够更好地进行泛化。

问题是:强化学习对于这个问题是否是一种有效的方法?在这种情况下,终止状态是如何处理的?你是否知道文献中有类似的例子?


回答:

强化学习解决了你没有的问题

强化学习方法主要针对的问题是将奖励归因于更早的动作,找出如何处理常见复杂情况的方法,即没有明确反馈告诉你做了什么(以及何时)正确或错误。你没有这种问题 – 你有直接与动作相关的即时奖励。

基本的监督学习方法在这方面会表现得很好,没有理由引入强化学习的“机制”。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注