强化学习中奖励政策的重要性是什么?

我们为达到目标设定+1的奖励,而为达到不希望的状态设定-1的奖励。

是否有必要为采取接近目标的行动设定+0.01的奖励,以及为采取未能接近目标的行动设定-0.01的奖励?

上述奖励政策的显著变化将会是什么?


回答:

来自Sutton和Barto的书,第3.2节 目标与奖励

因此,设定的奖励必须真正反映我们希望达成的目标。特别是,奖励信号不是向代理传授如何实现我们希望它做的事情的先验知识的地方。例如,玩国际象棋的代理应该只在真正赢得比赛时获得奖励,而不是在达到诸如拿下对手棋子或控制棋盘中心等子目标时获得奖励。如果对这些子目标的实现给予奖励,那么代理可能会找到一种不实现真正目标而实现这些子目标的方法。例如,它可能会找到一种即使输掉比赛也要拿下对手棋子的方法。奖励信号是你与机器人沟通你希望它实现什么目标的方式,而不是你希望它如何实现的方式。

因此,通常情况下,通过奖励函数引入先验知识是不好的做法,因为这可能会导致不希望的结果。

然而,已知通过奖励函数引导代理的学习过程可以提高强化学习的性能。事实上,在一些复杂任务中,有必要先引导代理达到一个次要(更容易)的目标,然后改变奖励以学习主要目标。这种技术被称为奖励塑造。一个古老但有趣的例子可以在Randløv和Alstrøm的论文中找到:使用强化学习和塑造学习骑自行车

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注