变量动作的强化学习

我所阅读过的所有强化学习算法通常都是应用于单个智能体,且该智能体具有固定数量的动作。是否有强化学习算法可以考虑变量数量的动作来做出决策?例如,在一款电脑游戏中,玩家控制N个士兵,每个士兵根据其状态具有随机数量的动作。你无法为全局决策者(即“将军”)制定固定数量的动作,因为随着士兵的产生和死亡,可用动作一直在变化。同样,你也无法在士兵层面制定固定数量的动作,因为士兵的动作取决于其即时环境。如果一个士兵没有看到对手,它可能只能行走;而如果它看到10个对手,那么它就有10个新的可能动作,即攻击这10个对手中的一个。


回答:

你描述的情况并不罕见。强化学习是一种寻找马尔可夫决策过程价值函数的方法。在MDP中,每个状态都有自己的动作集。要应用强化学习,你必须清楚地定义你问题中的状态、动作和奖励是什么。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注