据我所知,强化学习会从行动中获得奖励。
然而,在玩电子游戏时,大多数步骤都没有奖励(奖励 == 0)(例如:街头霸王),最终我们获得了奖励(例如:玩家获胜,奖励 = 1),有那么多动作,机器如何知道哪个是赢得这场游戏的关键点?
回答:
在强化学习中,奖励可以是即时的或延迟的[1]:
- 即时奖励可能是:
- 如果智能体赢得了游戏,则非常高的正值(这是击败对手的最后一个动作);
- 如果智能体输掉了游戏,则非常低的负值;
- 如果动作对对手造成伤害,则为正值;
- 如果智能体失去生命值,则为负值。
- 延迟奖励是由当前动作可能带来的未来奖励引起的。例如,向左移动一步可能导致在下一步避免被击中,并能击中对手。
强化学习算法,如Q-learning,选择能提供最高预期奖励的动作。这个奖励会不断更新,结合当前的奖励(在时间t的r)和可能的未来奖励(方程中的最后一个值,基于时间t+1及以后的动作的max Q):
关于(深度)强化学习的更多详细信息,以及一些应用于游戏的例子,可以参考深度强化学习初学者指南。