多智能体协作决策综述：场景、方法、挑战与展望

原标题: A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives 作者: Weiqiang Jin, Hongyang Du, Biao Zhao 等 (西安交通大学、香港大学、帝国理工学院) 发表: arXiv 预印本, 2025年3月链接: arXiv:2503.13415领域: 多智能体系统、协作决策、强化学习、LLM

一句话总结

这篇综述系统性地梳理了多智能体协作决策的五大范式：规则推理、博弈论、进化算法、多智能体强化学习（MARL）和大语言模型推理，为不同应用场景提供了方法选择指南。

研究背景

为什么需要多智能体协作决策？

┌─────────────────────────────────────────────────────────────┐
│              单智能体 vs 多智能体                            │
├─────────────────────────────────────────────────────────────┤
│  单智能体                                                   │
│  • 能力有限                                                 │
│  • 单点故障风险                                             │
│  • 复杂任务难以胜任                                         │
├─────────────────────────────────────────────────────────────┤
│  多智能体协作                                               │
│  • 能力互补                                                 │
│  • 分布式鲁棒性                                             │
│  • 复杂任务并行处理                                         │
│  • 涌现集体智能                                             │
└─────────────────────────────────────────────────────────────┘

💡 通俗理解: 就像一个足球队——11 个球员各有分工，通过协作完成单个球员无法完成的目标。

五大决策范式

范式总览

           多智能体协作决策范式
                  │
    ┌─────┬──────┼──────┬─────┐
    │     │      │      │     │
  规则   博弈论  进化   MARL  LLM
  推理          算法         推理

1. 规则推理 (Rule-Based / Fuzzy Logic)

核心思想: 使用模糊逻辑和语言规则处理不确定性

如果 (距离 = 近) 且 (速度 = 快) 则 (刹车 = 强)
如果 (距离 = 远) 且 (速度 = 慢) 则 (刹车 = 弱)

优势	劣势
可解释性强	适应新情况能力有限
处理模糊信息	规则数量爆炸问题
类人决策	难以处理高维场景

适用场景: 结构化环境、需要可解释性的领域

2. 博弈论方法 (Game Theory-Based)

核心思想: 分析智能体间的策略性互动

┌─────────────────────────────────────────────────────────────┐
│                    博弈论核心概念                            │
├─────────────────────────────────────────────────────────────┤
│  纳什均衡 (Nash Equilibrium)                                │
│  → 每个参与者都选择了最优策略，无人有动机单方面改变          │
├─────────────────────────────────────────────────────────────┤
│  斯塔克尔伯格博弈 (Stackelberg Game)                        │
│  → 领导者先行动，追随者后响应                               │
├─────────────────────────────────────────────────────────────┤
│  混合策略 (Mixed Strategy)                                  │
│  → 以概率分布选择行动                                       │
└─────────────────────────────────────────────────────────────┘

优势	劣势
理论保证强	假设理性参与者
均衡概念明确	计算复杂度高
动态适应	多均衡选择问题

适用场景: 竞争性环境、资源分配、定价策略

3. 进化算法 (Evolutionary Algorithms)

核心思想: 借鉴自然选择原理优化策略

┌─────────────────────────────────────────────────────────────┐
│                    进化算法流程                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   初始种群 → 选择 → 交叉 → 变异 → 评估 → 新种群            │
│       ↑                                     │               │
│       └─────────────────────────────────────┘               │
│                    迭代进化                                  │
└─────────────────────────────────────────────────────────────┘

优势	劣势
可扩展性强	收敛速度慢
自组织能力	参数调优困难
发现涌现策略	局部最优陷阱

适用场景: 大规模协调、自组织系统、策略探索

4. 多智能体强化学习 (MARL)

核心思想: 智能体通过与环境交互学习协作策略

三大训练-执行范式

范式	全称	特点
CTDE	集中训练，分散执行	最主流，平衡协调与扩展性
DTDE	分散训练，分散执行	完全独立，面临非平稳性
CTCE	集中训练，集中执行	协调最强，扩展性有限

CTDE 范式详解

┌─────────────────────────────────────────────────────────────┐
│          CTDE: 集中训练，分散执行                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   训练阶段 (中央):                                          │
│   ┌─────────────────────────────────────┐                   │
│   │  全局状态 + 所有智能体信息           │                   │
│   │         ↓                           │                   │
│   │    中央协调器/价值函数               │                   │
│   │         ↓                           │                   │
│   │    更新各智能体策略                  │                   │
│   └─────────────────────────────────────┘                   │
│                                                             │
│   执行阶段 (分散):                                          │
│   ┌─────┐  ┌─────┐  ┌─────┐                                │
│   │ A1  │  │ A2  │  │ A3  │  ← 仅使用本地观测               │
│   └─────┘  └─────┘  └─────┘                                │
└─────────────────────────────────────────────────────────────┘

代表算法

算法	类型	特点
QMIX	值分解	单调性约束，高效协调
MAPPO	策略梯度	PPO 的多智能体扩展
MADDPG	Actor-Critic	连续动作空间
CommNet	通信增强	智能体间可通信

优势	劣势
从经验中学习	非平稳性问题
适应动态环境	信用分配困难
端到端优化	样本效率低

适用场景: 动态复杂环境、需要适应性的任务

5. 大语言模型推理 (LLM-Based)

核心思想: 使用自然语言进行智能体通信和任务分解

┌─────────────────────────────────────────────────────────────┐
│               LLM 多智能体架构                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│            ┌─────────────┐                                  │
│            │ 全局规划者   │ ← 任务理解与分解                 │
│            └──────┬──────┘                                  │
│                   │                                         │
│       ┌───────────┼───────────┐                            │
│       │           │           │                            │
│  ┌────┴────┐ ┌────┴────┐ ┌────┴────┐                       │
│  │ 执行者 A │ │ 执行者 B │ │ 执行者 C │ ← 本地执行           │
│  └─────────┘ └─────────┘ └─────────┘                       │
│                                                             │
│  特点: 层级组织、自然语言通信、自适应重规划                   │
└─────────────────────────────────────────────────────────────┘

优势	劣势
自然语言通信	扩展性受限
灵活任务分解	透明度问题
自适应重规划	幻觉风险
常识推理能力	计算成本高

适用场景: 复杂任务分解、需要灵活沟通的协作

应用场景

主要领域

领域	应用示例
交通	自动驾驶车队、协作避障
机器人	多机器人协调、装配任务、灾难救援
农业	智能资源管理、协作农耕
基础设施	能源系统、交通管理、通信网络

自动驾驶案例

场景: 多辆自动驾驶车协作通过无信号路口

传统方法:
每辆车独立决策 → 可能碰撞或死锁

多智能体协作:
┌─────────────────────────────────────────────────────────────┐
│  车辆 A: "我需要左转"                                       │
│  车辆 B: "我直行，距离 50m"                                  │
│  车辆 C: "我右转，优先级低"                                  │
│                    ↓                                        │
│  协调结果: A 先行 → B 跟进 → C 最后                         │
└─────────────────────────────────────────────────────────────┘

范式对比与选择指南

综合对比

维度	规则推理	博弈论	进化算法	MARL	LLM
可解释性	★★★★★	★★★★	★★	★★	★★★
扩展性	★★	★★	★★★★	★★★★	★★
动态适应	★★	★★★	★★★	★★★★★	★★★★
理论保证	★★★	★★★★★	★★	★★★	★
通信能力	★	★★	★★	★★★★	★★★★★

选择指南

┌─────────────────────────────────────────────────────────────┐
│                    方法选择决策树                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  需要可解释性？                                              │
│  ├─ 是 → 规则推理 / 博弈论                                  │
│  └─ 否 → 继续                                               │
│                                                             │
│  环境是否动态变化？                                          │
│  ├─ 是 → MARL / LLM                                         │
│  └─ 否 → 博弈论 / 进化算法                                  │
│                                                             │
│  需要自然语言通信？                                          │
│  ├─ 是 → LLM                                                │
│  └─ 否 → MARL                                               │
│                                                             │
│  智能体数量？                                                │
│  ├─ 大规模 → 进化算法 / MARL (DTDE)                         │
│  └─ 中小规模 → MARL (CTDE) / LLM                            │
└─────────────────────────────────────────────────────────────┘

关键发现

1. 范式互补性

传统方法（规则、博弈论、进化）在结构化领域表现优异，但难以应对动态复杂性。MARL 和 LLM 在处理动态和不确定环境方面具有显著优势。

2. CTDE 主导地位

在 MARL 中，CTDE 范式成为最实用的选择，通过 QMIX、MAPPO 等算法平衡了协调效果和执行扩展性。

3. 通信的重要性

基于通信的 MARL 变体（如注意力机制、目标通信）显著增强了协调能力。

4. LLM 整合趋势

LLM 代表了新兴前沿，特别适用于层级智能体组织和复杂任务分解，但大规模智能体群体的扩展性仍待解决。

5. 研究差距

现有方法忽视了仿真环境作为与算法同等重要的组成部分，实现细节的缺失影响了可复现性。

未来展望

方向	描述
混合范式	结合多种方法优势
大规模扩展	解决百万级智能体协调
人机协作	人类与 AI 智能体混合团队
安全协作	对抗环境下的鲁棒协作
迁移学习	跨场景策略迁移

总结

这篇综述为多智能体协作决策提供了全景式的方法论指南：

贡献	意义
五范式分类	清晰的方法论框架
场景对应	实际应用指导
对比分析	方法选择依据
趋势洞察	研究方向指引

💡 核心洞察: 没有"万能"的多智能体协作方法——不同场景需要不同范式，未来的趋势是混合方法和LLM 增强的协作系统。

多智能体协作决策综述：场景、方法、挑战与展望 ​

一句话总结 ​

研究背景 ​

为什么需要多智能体协作决策？ ​

五大决策范式 ​

范式总览 ​

1. 规则推理 (Rule-Based / Fuzzy Logic) ​

2. 博弈论方法 (Game Theory-Based) ​

3. 进化算法 (Evolutionary Algorithms) ​

4. 多智能体强化学习 (MARL) ​

三大训练-执行范式 ​

CTDE 范式详解 ​

代表算法 ​

5. 大语言模型推理 (LLM-Based) ​

应用场景 ​

主要领域 ​

自动驾驶案例 ​

范式对比与选择指南 ​

综合对比 ​

选择指南 ​

关键发现 ​

1. 范式互补性 ​

2. CTDE 主导地位 ​

3. 通信的重要性 ​

4. LLM 整合趋势 ​

5. 研究差距 ​

未来展望 ​

总结 ​

参考资料 ​