变量动作的强化学习

我所阅读过的所有强化学习算法通常都是应用于单个智能体,且该智能体具有固定数量的动作。是否有强化学习算法可以考虑变量数量的动作来做出决策?例如,在一款电脑游戏中,玩家控制N个士兵,每个士兵根据其状态具有随机数量的动作。你无法为全局决策者(即“将军”)制定固定数量的动作,因为随着士兵的产生和死亡,可用动作一直在变化。同样,你也无法在士兵层面制定固定数量的动作,因为士兵的动作取决于其即时环境。如果一个士兵没有看到对手,它可能只能行走;而如果它看到10个对手,那么它就有10个新的可能动作,即攻击这10个对手中的一个。


回答:

你描述的情况并不罕见。强化学习是一种寻找马尔可夫决策过程价值函数的方法。在MDP中,每个状态都有自己的动作集。要应用强化学习,你必须清楚地定义你问题中的状态、动作和奖励是什么。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注