Home IT技术机器如何知道哪一步能获得最大奖励？

机器如何知道哪一步能获得最大奖励？

IT技术 xiaolong · 2025年5月24日 · 0 Comment

据我所知，强化学习会从行动中获得奖励。

然而，在玩电子游戏时，大多数步骤都没有奖励（奖励 == 0）（例如：街头霸王），最终我们获得了奖励（例如：玩家获胜，奖励 = 1），有那么多动作，机器如何知道哪个是赢得这场游戏的关键点？

回答：

在强化学习中，奖励可以是即时的或延迟的[1]：

即时奖励可能是：
- 如果智能体赢得了游戏，则非常高的正值（这是击败对手的最后一个动作）;
- 如果智能体输掉了游戏，则非常低的负值;
- 如果动作对对手造成伤害，则为正值;
- 如果智能体失去生命值，则为负值。
延迟奖励是由当前动作可能带来的未来奖励引起的。例如，向左移动一步可能导致在下一步避免被击中，并能击中对手。

强化学习算法，如Q-learning，选择能提供最高预期奖励的动作。这个奖励会不断更新，结合当前的奖励（在时间t的r）和可能的未来奖励（方程中的最后一个值，基于时间t+1及以后的动作的max Q）:

关于（深度）强化学习的更多详细信息，以及一些应用于游戏的例子，可以参考深度强化学习初学者指南。

machine-learning reinforcement-learning

发表回复取消回复