我们为达到目标设定+1的奖励,而为达到不希望的状态设定-1的奖励。
是否有必要为采取接近目标的行动设定+0.01的奖励,以及为采取未能接近目标的行动设定-0.01的奖励?
上述奖励政策的显著变化将会是什么?
回答:
来自Sutton和Barto的书,第3.2节 目标与奖励:
因此,设定的奖励必须真正反映我们希望达成的目标。特别是,奖励信号不是向代理传授如何实现我们希望它做的事情的先验知识的地方。例如,玩国际象棋的代理应该只在真正赢得比赛时获得奖励,而不是在达到诸如拿下对手棋子或控制棋盘中心等子目标时获得奖励。如果对这些子目标的实现给予奖励,那么代理可能会找到一种不实现真正目标而实现这些子目标的方法。例如,它可能会找到一种即使输掉比赛也要拿下对手棋子的方法。奖励信号是你与机器人沟通你希望它实现什么目标的方式,而不是你希望它如何实现的方式。
因此,通常情况下,通过奖励函数引入先验知识是不好的做法,因为这可能会导致不希望的结果。
然而,已知通过奖励函数引导代理的学习过程可以提高强化学习的性能。事实上,在一些复杂任务中,有必要先引导代理达到一个次要(更容易)的目标,然后改变奖励以学习主要目标。这种技术被称为奖励塑造
。一个古老但有趣的例子可以在Randløv和Alstrøm的论文中找到:使用强化学习和塑造学习骑自行车。