我正在进行一个项目,需要在多智能体场景中找到从一点到另一点的最佳优化路径。我正在寻找最适合这个问题的使用强化学习的算法。我尝试过“多智能体演员-评论家用于混合合作-竞争环境”,但在10000个回合后似乎仍未达到目标。我该如何改进这个算法,或者是否有其他算法可以帮助我解决这个问题?
回答:
多智能体强化学习掌握起来相当困难,且尚未证明对一般情况有效。
问题在于,在多智能体环境中,从每个个体智能体的角度来看,环境变得非静态。这意味着一个智能体的行动无法直接映射到状态,因为其他智能体也在独立执行行动,这会“迷惑”所有智能体。这里有一份关于多智能体研究的深入集合:https://github.com/LantaoYu/MARL-Papers
如果你想继续研究你提到的演员-评论家方法,我推荐你进一步研究这个:https://arxiv.org/pdf/1706.02275.pdf,如果你想完善多智能体演员-评论家(MADDPG)