强化学习在每个状态都是终止状态的情况下的应用

我的问题与强化学习的实现无关，而是想了解在每个状态都是终止状态的情况下，强化学习的概念。

我举个例子：一个机器人在学习踢足球，仅限于射门。奖励是射门后球与球门柱之间的距离。状态是由多个特征组成的数组，动作是由三维力组成的数组。

如果我们考虑情节性的强化学习，我觉得这种方法似乎不太合理。确实，机器人射门后立即获得奖励：每个情节都是一个终止情节。将下一个状态传递给系统似乎没有意义，因为算法并不关心它以优化奖励 – 在这种情况下，我会使用Actor-Critic方法来处理连续的状态和动作空间。有人可能会争辩说，不同的监督学习方法，如深度神经网络，可能更有效。但我不确定，因为在那种情况下，算法无法在远离训练集的输入上取得良好效果。据我所见，强化学习在这种情况下能够更好地进行泛化。

问题是：强化学习对于这个问题是否是一种有效的方法？在这种情况下，终止状态是如何处理的？你是否知道文献中有类似的例子？

回答：

强化学习解决了你没有的问题

强化学习方法主要针对的问题是将奖励归因于更早的动作，找出如何处理常见复杂情况的方法，即没有明确反馈告诉你做了什么（以及何时）正确或错误。你没有这种问题 – 你有直接与动作相关的即时奖励。

基本的监督学习方法在这方面会表现得很好，没有理由引入强化学习的“机制”。

学技术

强化学习在每个状态都是终止状态的情况下的应用

强化学习解决了你没有的问题

发表回复取消回复

强化学习解决了你没有的问题

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复