多智能体协作决策综述:场景、方法、挑战与展望
原标题: A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives 作者: Weiqiang Jin, Hongyang Du, Biao Zhao 等 (西安交通大学、香港大学、帝国理工学院) 发表: arXiv 预印本, 2025年3月 链接: arXiv:2503.13415领域: 多智能体系统、协作决策、强化学习、LLM
一句话总结
这篇综述系统性地梳理了多智能体协作决策的五大范式:规则推理、博弈论、进化算法、多智能体强化学习(MARL)和大语言模型推理,为不同应用场景提供了方法选择指南。
研究背景
为什么需要多智能体协作决策?
┌─────────────────────────────────────────────────────────────┐
│ 单智能体 vs 多智能体 │
├─────────────────────────────────────────────────────────────┤
│ 单智能体 │
│ • 能力有限 │
│ • 单点故障风险 │
│ • 复杂任务难以胜任 │
├─────────────────────────────────────────────────────────────┤
│ 多智能体协作 │
│ • 能力互补 │
│ • 分布式鲁棒性 │
│ • 复杂任务并行处理 │
│ • 涌现集体智能 │
└─────────────────────────────────────────────────────────────┘💡 通俗理解: 就像一个足球队——11 个球员各有分工,通过协作完成单个球员无法完成的目标。
五大决策范式
范式总览
多智能体协作决策范式
│
┌─────┬──────┼──────┬─────┐
│ │ │ │ │
规则 博弈论 进化 MARL LLM
推理 算法 推理1. 规则推理 (Rule-Based / Fuzzy Logic)
核心思想: 使用模糊逻辑和语言规则处理不确定性
如果 (距离 = 近) 且 (速度 = 快) 则 (刹车 = 强)
如果 (距离 = 远) 且 (速度 = 慢) 则 (刹车 = 弱)| 优势 | 劣势 |
|---|---|
| 可解释性强 | 适应新情况能力有限 |
| 处理模糊信息 | 规则数量爆炸问题 |
| 类人决策 | 难以处理高维场景 |
适用场景: 结构化环境、需要可解释性的领域
2. 博弈论方法 (Game Theory-Based)
核心思想: 分析智能体间的策略性互动
┌─────────────────────────────────────────────────────────────┐
│ 博弈论核心概念 │
├─────────────────────────────────────────────────────────────┤
│ 纳什均衡 (Nash Equilibrium) │
│ → 每个参与者都选择了最优策略,无人有动机单方面改变 │
├─────────────────────────────────────────────────────────────┤
│ 斯塔克尔伯格博弈 (Stackelberg Game) │
│ → 领导者先行动,追随者后响应 │
├─────────────────────────────────────────────────────────────┤
│ 混合策略 (Mixed Strategy) │
│ → 以概率分布选择行动 │
└─────────────────────────────────────────────────────────────┘| 优势 | 劣势 |
|---|---|
| 理论保证强 | 假设理性参与者 |
| 均衡概念明确 | 计算复杂度高 |
| 动态适应 | 多均衡选择问题 |
适用场景: 竞争性环境、资源分配、定价策略
3. 进化算法 (Evolutionary Algorithms)
核心思想: 借鉴自然选择原理优化策略
┌─────────────────────────────────────────────────────────────┐
│ 进化算法流程 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 初始种群 → 选择 → 交叉 → 变异 → 评估 → 新种群 │
│ ↑ │ │
│ └─────────────────────────────────────┘ │
│ 迭代进化 │
└─────────────────────────────────────────────────────────────┘| 优势 | 劣势 |
|---|---|
| 可扩展性强 | 收敛速度慢 |
| 自组织能力 | 参数调优困难 |
| 发现涌现策略 | 局部最优陷阱 |
适用场景: 大规模协调、自组织系统、策略探索
4. 多智能体强化学习 (MARL)
核心思想: 智能体通过与环境交互学习协作策略
三大训练-执行范式
| 范式 | 全称 | 特点 |
|---|---|---|
| CTDE | 集中训练,分散执行 | 最主流,平衡协调与扩展性 |
| DTDE | 分散训练,分散执行 | 完全独立,面临非平稳性 |
| CTCE | 集中训练,集中执行 | 协调最强,扩展性有限 |
CTDE 范式详解
┌─────────────────────────────────────────────────────────────┐
│ CTDE: 集中训练,分散执行 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 训练阶段 (中央): │
│ ┌─────────────────────────────────────┐ │
│ │ 全局状态 + 所有智能体信息 │ │
│ │ ↓ │ │
│ │ 中央协调器/价值函数 │ │
│ │ ↓ │ │
│ │ 更新各智能体策略 │ │
│ └─────────────────────────────────────┘ │
│ │
│ 执行阶段 (分散): │
│ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │ A1 │ │ A2 │ │ A3 │ ← 仅使用本地观测 │
│ └─────┘ └─────┘ └─────┘ │
└─────────────────────────────────────────────────────────────┘代表算法
| 算法 | 类型 | 特点 |
|---|---|---|
| QMIX | 值分解 | 单调性约束,高效协调 |
| MAPPO | 策略梯度 | PPO 的多智能体扩展 |
| MADDPG | Actor-Critic | 连续动作空间 |
| CommNet | 通信增强 | 智能体间可通信 |
| 优势 | 劣势 |
|---|---|
| 从经验中学习 | 非平稳性问题 |
| 适应动态环境 | 信用分配困难 |
| 端到端优化 | 样本效率低 |
适用场景: 动态复杂环境、需要适应性的任务
5. 大语言模型推理 (LLM-Based)
核心思想: 使用自然语言进行智能体通信和任务分解
┌─────────────────────────────────────────────────────────────┐
│ LLM 多智能体架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ │
│ │ 全局规划者 │ ← 任务理解与分解 │
│ └──────┬──────┘ │
│ │ │
│ ┌───────────┼───────────┐ │
│ │ │ │ │
│ ┌────┴────┐ ┌────┴────┐ ┌────┴────┐ │
│ │ 执行者 A │ │ 执行者 B │ │ 执行者 C │ ← 本地执行 │
│ └─────────┘ └─────────┘ └─────────┘ │
│ │
│ 特点: 层级组织、自然语言通信、自适应重规划 │
└─────────────────────────────────────────────────────────────┘| 优势 | 劣势 |
|---|---|
| 自然语言通信 | 扩展性受限 |
| 灵活任务分解 | 透明度问题 |
| 自适应重规划 | 幻觉风险 |
| 常识推理能力 | 计算成本高 |
适用场景: 复杂任务分解、需要灵活沟通的协作
应用场景
主要领域
| 领域 | 应用示例 |
|---|---|
| 交通 | 自动驾驶车队、协作避障 |
| 机器人 | 多机器人协调、装配任务、灾难救援 |
| 农业 | 智能资源管理、协作农耕 |
| 基础设施 | 能源系统、交通管理、通信网络 |
自动驾驶案例
场景: 多辆自动驾驶车协作通过无信号路口
传统方法:
每辆车独立决策 → 可能碰撞或死锁
多智能体协作:
┌─────────────────────────────────────────────────────────────┐
│ 车辆 A: "我需要左转" │
│ 车辆 B: "我直行,距离 50m" │
│ 车辆 C: "我右转,优先级低" │
│ ↓ │
│ 协调结果: A 先行 → B 跟进 → C 最后 │
└─────────────────────────────────────────────────────────────┘范式对比与选择指南
综合对比
| 维度 | 规则推理 | 博弈论 | 进化算法 | MARL | LLM |
|---|---|---|---|---|---|
| 可解释性 | ★★★★★ | ★★★★ | ★★ | ★★ | ★★★ |
| 扩展性 | ★★ | ★★ | ★★★★ | ★★★★ | ★★ |
| 动态适应 | ★★ | ★★★ | ★★★ | ★★★★★ | ★★★★ |
| 理论保证 | ★★★ | ★★★★★ | ★★ | ★★★ | ★ |
| 通信能力 | ★ | ★★ | ★★ | ★★★★ | ★★★★★ |
选择指南
┌─────────────────────────────────────────────────────────────┐
│ 方法选择决策树 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 需要可解释性? │
│ ├─ 是 → 规则推理 / 博弈论 │
│ └─ 否 → 继续 │
│ │
│ 环境是否动态变化? │
│ ├─ 是 → MARL / LLM │
│ └─ 否 → 博弈论 / 进化算法 │
│ │
│ 需要自然语言通信? │
│ ├─ 是 → LLM │
│ └─ 否 → MARL │
│ │
│ 智能体数量? │
│ ├─ 大规模 → 进化算法 / MARL (DTDE) │
│ └─ 中小规模 → MARL (CTDE) / LLM │
└─────────────────────────────────────────────────────────────┘关键发现
1. 范式互补性
传统方法(规则、博弈论、进化)在结构化领域表现优异,但难以应对动态复杂性。MARL 和 LLM 在处理动态和不确定环境方面具有显著优势。
2. CTDE 主导地位
在 MARL 中,CTDE 范式成为最实用的选择,通过 QMIX、MAPPO 等算法平衡了协调效果和执行扩展性。
3. 通信的重要性
基于通信的 MARL 变体(如注意力机制、目标通信)显著增强了协调能力。
4. LLM 整合趋势
LLM 代表了新兴前沿,特别适用于层级智能体组织和复杂任务分解,但大规模智能体群体的扩展性仍待解决。
5. 研究差距
现有方法忽视了仿真环境作为与算法同等重要的组成部分,实现细节的缺失影响了可复现性。
未来展望
| 方向 | 描述 |
|---|---|
| 混合范式 | 结合多种方法优势 |
| 大规模扩展 | 解决百万级智能体协调 |
| 人机协作 | 人类与 AI 智能体混合团队 |
| 安全协作 | 对抗环境下的鲁棒协作 |
| 迁移学习 | 跨场景策略迁移 |
总结
这篇综述为多智能体协作决策提供了全景式的方法论指南:
| 贡献 | 意义 |
|---|---|
| 五范式分类 | 清晰的方法论框架 |
| 场景对应 | 实际应用指导 |
| 对比分析 | 方法选择依据 |
| 趋势洞察 | 研究方向指引 |
💡 核心洞察: 没有"万能"的多智能体协作方法——不同场景需要不同范式,未来的趋势是混合方法和LLM 增强的协作系统。