机器如何知道哪一步能获得最大奖励?

据我所知,强化学习会从行动中获得奖励。

然而,在玩电子游戏时,大多数步骤都没有奖励(奖励 == 0)(例如:街头霸王),最终我们获得了奖励(例如:玩家获胜,奖励 = 1),有那么多动作,机器如何知道哪个是赢得这场游戏的关键点?


回答:

强化学习中,奖励可以是即时的或延迟的[1]:

  • 即时奖励可能是:
    • 如果智能体赢得了游戏,则非常高的正值(这是击败对手的最后一个动作);
    • 如果智能体输掉了游戏,则非常低的负值;
    • 如果动作对对手造成伤害,则为正值;
    • 如果智能体失去生命值,则为负值。
  • 延迟奖励是由当前动作可能带来的未来奖励引起的。例如,向左移动一步可能导致在下一步避免被击中,并能击中对手。

强化学习算法,如Q-learning,选择能提供最高预期奖励的动作。这个奖励会不断更新,结合当前的奖励(在时间tr)和可能的未来奖励(方程中的最后一个值,基于时间t+1及以后的动作的max Q):qlearning

关于(深度)强化学习的更多详细信息,以及一些应用于游戏的例子,可以参考深度强化学习初学者指南

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注