最佳多智能体连续空间路径查找算法使用强化学习

我正在进行一个项目,需要在多智能体场景中找到从一点到另一点的最佳优化路径。我正在寻找最适合这个问题的使用强化学习的算法。我尝试过“多智能体演员-评论家用于混合合作-竞争环境”,但在10000个回合后似乎仍未达到目标。我该如何改进这个算法,或者是否有其他算法可以帮助我解决这个问题?


回答:

多智能体强化学习掌握起来相当困难,且尚未证明对一般情况有效。

问题在于,在多智能体环境中,从每个个体智能体的角度来看,环境变得非静态。这意味着一个智能体的行动无法直接映射到状态,因为其他智能体也在独立执行行动,这会“迷惑”所有智能体。这里有一份关于多智能体研究的深入集合:https://github.com/LantaoYu/MARL-Papers

如果你想继续研究你提到的演员-评论家方法,我推荐你进一步研究这个:https://arxiv.org/pdf/1706.02275.pdf,如果你想完善多智能体演员-评论家(MADDPG)

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注