我所阅读过的所有强化学习算法通常都是应用于单个智能体,且该智能体具有固定数量的动作。是否有强化学习算法可以考虑变量数量的动作来做出决策?例如,在一款电脑游戏中,玩家控制N个士兵,每个士兵根据其状态具有随机数量的动作。你无法为全局决策者(即“将军”)制定固定数量的动作,因为随着士兵的产生和死亡,可用动作一直在变化。同样,你也无法在士兵层面制定固定数量的动作,因为士兵的动作取决于其即时环境。如果一个士兵没有看到对手,它可能只能行走;而如果它看到10个对手,那么它就有10个新的可能动作,即攻击这10个对手中的一个。
回答:
你描述的情况并不罕见。强化学习是一种寻找马尔可夫决策过程价值函数的方法。在MDP中,每个状态都有自己的动作集。要应用强化学习,你必须清楚地定义你问题中的状态、动作和奖励是什么。