变量动作的强化学习

我所阅读过的所有强化学习算法通常都是应用于单个智能体，且该智能体具有固定数量的动作。是否有强化学习算法可以考虑变量数量的动作来做出决策？例如，在一款电脑游戏中，玩家控制N个士兵，每个士兵根据其状态具有随机数量的动作。你无法为全局决策者（即“将军”）制定固定数量的动作，因为随着士兵的产生和死亡，可用动作一直在变化。同样，你也无法在士兵层面制定固定数量的动作，因为士兵的动作取决于其即时环境。如果一个士兵没有看到对手，它可能只能行走；而如果它看到10个对手，那么它就有10个新的可能动作，即攻击这10个对手中的一个。

回答：

你描述的情况并不罕见。强化学习是一种寻找马尔可夫决策过程价值函数的方法。在MDP中，每个状态都有自己的动作集。要应用强化学习，你必须清楚地定义你问题中的状态、动作和奖励是什么。

学技术

变量动作的强化学习

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复