Skip to content

多智能体协作决策综述:场景、方法、挑战与展望

原标题: A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives 作者: Weiqiang Jin, Hongyang Du, Biao Zhao 等 (西安交通大学、香港大学、帝国理工学院) 发表: arXiv 预印本, 2025年3月 链接: arXiv:2503.13415领域: 多智能体系统、协作决策、强化学习、LLM


一句话总结

这篇综述系统性地梳理了多智能体协作决策的五大范式:规则推理、博弈论、进化算法、多智能体强化学习(MARL)和大语言模型推理,为不同应用场景提供了方法选择指南。


研究背景

为什么需要多智能体协作决策?

┌─────────────────────────────────────────────────────────────┐
│              单智能体 vs 多智能体                            │
├─────────────────────────────────────────────────────────────┤
│  单智能体                                                   │
│  • 能力有限                                                 │
│  • 单点故障风险                                             │
│  • 复杂任务难以胜任                                         │
├─────────────────────────────────────────────────────────────┤
│  多智能体协作                                               │
│  • 能力互补                                                 │
│  • 分布式鲁棒性                                             │
│  • 复杂任务并行处理                                         │
│  • 涌现集体智能                                             │
└─────────────────────────────────────────────────────────────┘

💡 通俗理解: 就像一个足球队——11 个球员各有分工,通过协作完成单个球员无法完成的目标。


五大决策范式

范式总览

           多智能体协作决策范式

    ┌─────┬──────┼──────┬─────┐
    │     │      │      │     │
  规则   博弈论  进化   MARL  LLM
  推理          算法         推理

1. 规则推理 (Rule-Based / Fuzzy Logic)

核心思想: 使用模糊逻辑和语言规则处理不确定性

如果 (距离 = 近) 且 (速度 = 快) 则 (刹车 = 强)
如果 (距离 = 远) 且 (速度 = 慢) 则 (刹车 = 弱)
优势劣势
可解释性强适应新情况能力有限
处理模糊信息规则数量爆炸问题
类人决策难以处理高维场景

适用场景: 结构化环境、需要可解释性的领域


2. 博弈论方法 (Game Theory-Based)

核心思想: 分析智能体间的策略性互动

┌─────────────────────────────────────────────────────────────┐
│                    博弈论核心概念                            │
├─────────────────────────────────────────────────────────────┤
│  纳什均衡 (Nash Equilibrium)                                │
│  → 每个参与者都选择了最优策略,无人有动机单方面改变          │
├─────────────────────────────────────────────────────────────┤
│  斯塔克尔伯格博弈 (Stackelberg Game)                        │
│  → 领导者先行动,追随者后响应                               │
├─────────────────────────────────────────────────────────────┤
│  混合策略 (Mixed Strategy)                                  │
│  → 以概率分布选择行动                                       │
└─────────────────────────────────────────────────────────────┘
优势劣势
理论保证强假设理性参与者
均衡概念明确计算复杂度高
动态适应多均衡选择问题

适用场景: 竞争性环境、资源分配、定价策略


3. 进化算法 (Evolutionary Algorithms)

核心思想: 借鉴自然选择原理优化策略

┌─────────────────────────────────────────────────────────────┐
│                    进化算法流程                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   初始种群 → 选择 → 交叉 → 变异 → 评估 → 新种群            │
│       ↑                                     │               │
│       └─────────────────────────────────────┘               │
│                    迭代进化                                  │
└─────────────────────────────────────────────────────────────┘
优势劣势
可扩展性强收敛速度慢
自组织能力参数调优困难
发现涌现策略局部最优陷阱

适用场景: 大规模协调、自组织系统、策略探索


4. 多智能体强化学习 (MARL)

核心思想: 智能体通过与环境交互学习协作策略

三大训练-执行范式

范式全称特点
CTDE集中训练,分散执行最主流,平衡协调与扩展性
DTDE分散训练,分散执行完全独立,面临非平稳性
CTCE集中训练,集中执行协调最强,扩展性有限

CTDE 范式详解

┌─────────────────────────────────────────────────────────────┐
│          CTDE: 集中训练,分散执行                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   训练阶段 (中央):                                          │
│   ┌─────────────────────────────────────┐                   │
│   │  全局状态 + 所有智能体信息           │                   │
│   │         ↓                           │                   │
│   │    中央协调器/价值函数               │                   │
│   │         ↓                           │                   │
│   │    更新各智能体策略                  │                   │
│   └─────────────────────────────────────┘                   │
│                                                             │
│   执行阶段 (分散):                                          │
│   ┌─────┐  ┌─────┐  ┌─────┐                                │
│   │ A1  │  │ A2  │  │ A3  │  ← 仅使用本地观测               │
│   └─────┘  └─────┘  └─────┘                                │
└─────────────────────────────────────────────────────────────┘

代表算法

算法类型特点
QMIX值分解单调性约束,高效协调
MAPPO策略梯度PPO 的多智能体扩展
MADDPGActor-Critic连续动作空间
CommNet通信增强智能体间可通信
优势劣势
从经验中学习非平稳性问题
适应动态环境信用分配困难
端到端优化样本效率低

适用场景: 动态复杂环境、需要适应性的任务


5. 大语言模型推理 (LLM-Based)

核心思想: 使用自然语言进行智能体通信和任务分解

┌─────────────────────────────────────────────────────────────┐
│               LLM 多智能体架构                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│            ┌─────────────┐                                  │
│            │ 全局规划者   │ ← 任务理解与分解                 │
│            └──────┬──────┘                                  │
│                   │                                         │
│       ┌───────────┼───────────┐                            │
│       │           │           │                            │
│  ┌────┴────┐ ┌────┴────┐ ┌────┴────┐                       │
│  │ 执行者 A │ │ 执行者 B │ │ 执行者 C │ ← 本地执行           │
│  └─────────┘ └─────────┘ └─────────┘                       │
│                                                             │
│  特点: 层级组织、自然语言通信、自适应重规划                   │
└─────────────────────────────────────────────────────────────┘
优势劣势
自然语言通信扩展性受限
灵活任务分解透明度问题
自适应重规划幻觉风险
常识推理能力计算成本高

适用场景: 复杂任务分解、需要灵活沟通的协作


应用场景

主要领域

领域应用示例
交通自动驾驶车队、协作避障
机器人多机器人协调、装配任务、灾难救援
农业智能资源管理、协作农耕
基础设施能源系统、交通管理、通信网络

自动驾驶案例

场景: 多辆自动驾驶车协作通过无信号路口

传统方法:
每辆车独立决策 → 可能碰撞或死锁

多智能体协作:
┌─────────────────────────────────────────────────────────────┐
│  车辆 A: "我需要左转"                                       │
│  车辆 B: "我直行,距离 50m"                                  │
│  车辆 C: "我右转,优先级低"                                  │
│                    ↓                                        │
│  协调结果: A 先行 → B 跟进 → C 最后                         │
└─────────────────────────────────────────────────────────────┘

范式对比与选择指南

综合对比

维度规则推理博弈论进化算法MARLLLM
可解释性★★★★★★★★★★★★★★★★
扩展性★★★★★★★★★★★★★★
动态适应★★★★★★★★★★★★★★★★★
理论保证★★★★★★★★★★★★★
通信能力★★★★★★★★★★★★★

选择指南

┌─────────────────────────────────────────────────────────────┐
│                    方法选择决策树                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  需要可解释性?                                              │
│  ├─ 是 → 规则推理 / 博弈论                                  │
│  └─ 否 → 继续                                               │
│                                                             │
│  环境是否动态变化?                                          │
│  ├─ 是 → MARL / LLM                                         │
│  └─ 否 → 博弈论 / 进化算法                                  │
│                                                             │
│  需要自然语言通信?                                          │
│  ├─ 是 → LLM                                                │
│  └─ 否 → MARL                                               │
│                                                             │
│  智能体数量?                                                │
│  ├─ 大规模 → 进化算法 / MARL (DTDE)                         │
│  └─ 中小规模 → MARL (CTDE) / LLM                            │
└─────────────────────────────────────────────────────────────┘

关键发现

1. 范式互补性

传统方法(规则、博弈论、进化)在结构化领域表现优异,但难以应对动态复杂性。MARL 和 LLM 在处理动态和不确定环境方面具有显著优势。

2. CTDE 主导地位

在 MARL 中,CTDE 范式成为最实用的选择,通过 QMIX、MAPPO 等算法平衡了协调效果和执行扩展性。

3. 通信的重要性

基于通信的 MARL 变体(如注意力机制、目标通信)显著增强了协调能力。

4. LLM 整合趋势

LLM 代表了新兴前沿,特别适用于层级智能体组织和复杂任务分解,但大规模智能体群体的扩展性仍待解决。

5. 研究差距

现有方法忽视了仿真环境作为与算法同等重要的组成部分,实现细节的缺失影响了可复现性。


未来展望

方向描述
混合范式结合多种方法优势
大规模扩展解决百万级智能体协调
人机协作人类与 AI 智能体混合团队
安全协作对抗环境下的鲁棒协作
迁移学习跨场景策略迁移

总结

这篇综述为多智能体协作决策提供了全景式的方法论指南

贡献意义
五范式分类清晰的方法论框架
场景对应实际应用指导
对比分析方法选择依据
趋势洞察研究方向指引

💡 核心洞察: 没有"万能"的多智能体协作方法——不同场景需要不同范式,未来的趋势是混合方法LLM 增强的协作系统


参考资料

基于 MIT 许可证发布。内容版权归作者所有。