科研动态 | 于非院士团队多智能体强化学习新进展:动态可选择的参数共享机制
  • 发布时间:2023-07-26
  • 作者:光明实验室
  • 浏览:3190次



光明实验室于非院士团队提交的一篇关于多智能体强化学习的文章A Dynamic Selective Parameter Sharing Mechanism Embedded with Multi-Level Reasoning Abstractions(作者:刘岩、贺颖、 明仲、于非)被欧洲人工智能会议European Conference on Artificial Intelligence (ECAI 2023)收录。ECAI,是在欧洲举行的以人工智能和机器学习为核心的重要学术会议,是人工智能领域的三大综合会议之一(另外两个会议是IJCAI和AAAI),具有较强国际影响力。



协作多智能体强化学习(Collaborative Multi-Agent Reinforcement Learning,Co-MARL)通常采用多种参数共享(Parameter Sharing)机制,如完全共享和部分共享。然而,不谨慎地应用这些共享机制可能会限制智能体们的策略多样性并限制其合作的灵活性。为了解决这些问题,本研究引入了一种嵌入多层推理抽象概念(Abstract Concepts)的动态可选择参数共享机制,旨在让智能体们学习到更加多样化且互补的协作策略,克服复杂协作场景的严苛挑战。

近年来,使用参数共享技术的协作多智能体强化学习算法取得了重大进展。但是,在复杂的现实场景中,智能体们需要学习更复杂且互补的协作策略才能达成任务目标。这要求它们准确理解自身的身份并根据环境条件的变化选择合适的合作伙伴。但是,参数共享机制通常只被视为一项代码级别的技术被采用,能否通过修改参数共享机制以促进智能体之间建立更灵活和稳定的协作关系,尚未得到足够深入的研究关注。

目前,一些研究提出了多种参数共享机制,例如完全共享(Full Sharing)和部分共享(Partial Sharing)。完全共享指的是所有智能体共享一个策略,这在神经网络层面上为所有智能体建立了一种硬连接的合作关系并简化了学习过程。然而,在观测空间普遍相似的狭窄实验环境中,完全共享可能导致智能体学习到的策略缺乏多样性,甚至使得智能体行为趋同导致它们之间失去协作能力,最重要的是,完全共享的模式严重限制了智能体合作模式的灵活性。最近的一些研究设计了部分共享的机制,将智能体的Q网络划分为完全共享和完全独立的两个部分。这一机制存在的问题是独立部分对智能体数量的增加非常敏感,并且在共享和独立部分之间保持平衡受到环境的严重影响。当然,还有一些研究提出了可选择的参数共享机制,这一机制普遍基于智能体的经验轨迹或固定的身份编码将智能体分组。然而,分组的有效性取决于算法准确识别智能体之间的差异的能力。此外,如何保持不同组之间存在策略差异并且如何建立跨组共享的协作关系仍然是未解决的挑战。

为了解决上述问题,我们提出了一种动态可选择的参数共享机制,它嵌入了多层推理抽象概念。具体而言,我们首先从智能体的动作空间出发,引入了具有数值化差异的时变对比序列来推断用于描述智能体之间差异的低层抽象概念。然后,我们受到人脑中不同投影区域通过连接完成高级反馈机制的启发,考虑将这些低层次的抽象概念连接,组成更复杂的高层抽象概念。我们利用这些多层抽象概念进行动态可选择的参数共享。此外,我们设计了一种内在奖励,以引导高层抽象概念能够为处在不同共享组的智能体之间建立协作关系。最后,我们引入一个余弦相似度正则化项,确保不同组的策略之间足够多样。


图1 DSPS-MA整体框架图


如图1所示,本研究提出的嵌入多层抽象概念的动态可选择参数共享机制可分为三个主要部分:

(1)从智能体各自的动作空间出发,获取具有数值化差异的动作价值并组成自对比序列,推断和编码智能体的自对比序列获取表征智能体身份差异的低层抽象概念;

(2)利用图注意力网络实现对智能体低层抽象概念的组合连接,得到高层抽象概念;

(3)智能体们分别对低层和高层抽象概念进行采样,并依据多层采样结果进行动态可选择的参数共享,实现依据环境变化动态选择合适的伙伴进行共享和协作。




图2 DSPS-MA在SMAC中的实验结果



图3 DSPS-MA在LBF中的实验结果

(从左向右分别为15×15-4p-3f和15×15-4p-5f)


图2和图3分别展示了我们提出的嵌入多层抽象概念的动态可选择参数共享在Starcraft II Multi-Agent Challenge(SMAC)和Level-Based Foraging(LBF)场景下的实验结果。从图中曲线可以看出,我们提出的方法能够为智能体提供有效的协作策略,能够建立互补且多样的协作,克服困难场景挑战。


参考文献

Reference

[1] Yann LeCun, ‘A path towards autonomous machine intelligence version 0.9.2, 2022-06-27’, Open Review, 62, (2022).

[2] Jayesh K Gupta, Maxim Egorov, and Mykel Kochenderfer, ‘Cooperative multi-agent control using deep reinforcement learning’, in Proceedings of the 16th International Conference on Autonomous Agents and Multiagent Systems, pp. 66–83, (2017).

[3] Chenghao Li, Tonghan Wang, Chengjie Wu, Qianchuan Zhao, Jun Yang, and Chongjie Zhang, ‘Celebrating diversity in shared multi-agent reinforcement learning’, Advances in Neural Information Processing Systems, 34, 3991–4002, (2021).

[4] Filippos Christianos, Georgios Papoudakis, Muhammad A Rahman, and Stefano V Albrecht, ‘Scaling multi-agent reinforcement learning with selective parameter sharing’, in Proceedings of the 38th International Conference on Machine Learning, pp. 1989–1998, (2021).

[5] Han Wang, Yang Yu, and Yuan Jiang, ‘A cooperative multi-agent reinforcement learning algorithm based on dynamic self-selection parameters sharing’, Chinese Journal of Intelligent Science and Technology, 4(1), 75, (2022).