本文介绍了一种新颖的多智能体强化学习方法,称为个性化训练与蒸馏执行(Personalized Training with Distilled Execution, PTDE)。该方法通过引入全球信息个性化模块(GIP),为每个智能体定制适合的全球信息,从而优化个体的决策过程。文章强调,传统方法中统一使用全球信息并不足以提高性能,因此PTDE通过知识蒸馏技术,确保在去中心化执行时能有效利用个性化的信息,减少性能损失。实验结果表明,PTDE在多个基准任务中均实现了显著的性能提升,验证了其广泛的适用性和有效性。

1 多智能体强化学习

经典的多智能体强化学习(MARL)算法通常分为两大类:基于值分解的方法和基于演员-评论家的方法。基于值分解的方法,如VDN和QMIX,通过将联合价值函数分解为个体价值函数,促进多智能体的协作决策。基于演员-评论家的算法,如MAPPO和COMA,则结合策略优化和价值评估,通过共享或集中化的评论家来提高智能体的协作能力。这些算法在处理多智能体环境中的协作与竞争问题时,已取得了显著的成果。

PTDE: 用于多智能体强化学习的个性化训练与蒸馏_大模型

2 PTDE模型框架

训练阶段:

  • 在此阶段,通过全球信息个性化模块(GIP),为每个智能体生成个性化的全球信息。这一过程通过分析每个智能体的局部信息,提取有助于决策的全球信息,从而优化每个智能体的Q函数或策略。

PTDE: 用于多智能体强化学习的个性化训练与蒸馏_大模型微调_02

知识蒸馏

  • 在第一阶段训练完成后,进行知识蒸馏。在此过程中,使用一个学生网络(学生模型)来提取来自教师网络(GIP模块)的知识。学生网络仅依赖于智能体的局部信息,以实现去中心化的决策过程。

去中心化执行

  • 在执行阶段,教师网络被学生网络所替代。智能体在执行过程中仅利用各自的局部信息来计算行动值,从而进行决策。这种方法确保了在保持个性化信息的同时,实现去中心化执行。

PTDE框架旨在通过个性化全球信息和知识蒸馏相结合,提升智能体的协作性能,减少在去中心化执行过程中可能出现的性能损失。实验结果表明,该框架在多个基准任务中表现出显著的性能提升。PTDE框架具有良好的通用性,可以与多种现有的MARL算法结合使用,从而适应不同的环境和任务需求。

PTDE: 用于多智能体强化学习的个性化训练与蒸馏_PTDE_03

3 结语

本文提出了一种名为PTDE(个性化训练与蒸馏执行)的新范式,通过个性化全球信息和知识蒸馏,实现多智能体强化学习中的去中心化执行,显著提升了智能体的协作性能。

论文题目: PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning
论文链接: https://arxiv.org/abs/2210.08872