合作、竞争与恶意:LLM 利益相关者交互式谈判
原标题: Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation 作者: Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Schönherr, Mario Fritz 发表: arXiv 预印本, 2023年9月 (EMNLP 2024) 链接: arXiv:2309.17234领域: 多智能体谈判、博弈论、LLM 评估
一句话总结
这篇论文提出了一个"6 方 5 议题"的复杂谈判博弈框架来评估 LLM,发现即使是 GPT-4 也只能达到 81% 的谈判成功率,而贪婪或恶意智能体可以显著破坏集体合作。
研究背景与动机
为什么用谈判评估 LLM?
谈判是人类互动中最复杂的任务之一,涵盖了沟通的多个关键特征:
┌─────────────────────────────────────────────────────────────┐
│ 谈判的核心维度 │
├─────────────────────────────────────────────────────────────┤
│ 合作 (Cooperation) → 寻找共同利益,达成双赢 │
│ 竞争 (Competition) → 争夺有限资源,最大化自身收益 │
│ 操纵 (Manipulation) → 利用信息不对称影响他人决策 │
└─────────────────────────────────────────────────────────────┘💡 通俗理解: 谈判就像商业会议——你需要同时做到:计算利益、推测对方底线、适时妥协、防止被骗。这对 LLM 是极大的挑战。
谈判游戏设计
基本设置
| 参数 | 设置 |
|---|---|
| 参与方 | 6 方 |
| 议题数 | 5 个 |
| 每议题选项 | 3-5 个子选项 |
| 总可能交易 | 720 种 |
| 最高得分 | 100 分 |
游戏规则
┌─────────────────────────────────────────────────────────────┐
│ 谈判游戏结构 │
├─────────────────────────────────────────────────────────────┤
│ 每方拥有: │
│ • 秘密评分系统(对各选项的私有估值) │
│ • 最低接受阈值(低于此分数拒绝交易) │
│ │
│ 成功条件: │
│ • 至少 5 方同意(包括 2 个否决方) │
│ • 每方得分 ≥ 最低阈值 │
│ │
│ 博弈类型:非零和博弈(存在帕累托改进空间) │
└─────────────────────────────────────────────────────────────┘所需智能体能力
要达成协议,智能体必须具备:
| 能力 | 说明 |
|---|---|
| 算术能力 | 准确计算各交易的得分 |
| 推理能力 | 推断他人的偏好和底线 |
| 探索能力 | 系统性地尝试不同方案 |
| 规划能力 | 制定多轮策略 |
| 心智理论 (ToM) | 区分自己和他人的目标 |
评估维度
核心指标
┌─────────────────────────────────────────────────────────────┐
│ 评估指标体系 │
├─────────────────────────────────────────────────────────────┤
│ 1. 谈判成功率 │
│ → 最终达成协议的比例 │
├─────────────────────────────────────────────────────────────┤
│ 2. 算术准确率 │
│ → 交易评分计算的正确率 │
├─────────────────────────────────────────────────────────────┤
│ 3. 心智理论能力 │
│ → 推断他人偏好的准确度 │
├─────────────────────────────────────────────────────────────┤
│ 4. 信息安全 │
│ → 自身评分泄露的防护程度 │
├─────────────────────────────────────────────────────────────┤
│ 5. 方案探索广度 │
│ → 尝试的不同交易方案数量 │
├─────────────────────────────────────────────────────────────┤
│ 6. 长期规划能力 │
│ → 跨轮次的策略一致性 │
└─────────────────────────────────────────────────────────────┘实验结果
模型性能对比
| 模型 | 谈判成功率 | 特点 |
|---|---|---|
| GPT-4 | 81% | 最佳表现 |
| Llama3 70B | ~70% | 可与 GPT-4 媲美 |
| GPT-3.5 | 20% | 表现不佳 |
| 小规模模型 | <10% | 基本失败 |
GPT-3.5 的典型失败模式
"GPT-3.5 智能体经常提出低于自己最低阈值的交易方案"
这暴露了算术能力的严重缺陷——智能体甚至无法正确评估对自己是否有利。
Chain-of-Thought 提示策略
分阶段提示框架
研究者设计了分解任务的 CoT 策略:
┌─────────────────────────────────────────────────────────────┐
│ CoT 提示框架 │
├─────────────────────────────────────────────────────────────┤
│ 阶段 1: 观察 (Observation) │
│ → "当前提案是什么?各方的反应如何?" │
├─────────────────────────────────────────────────────────────┤
│ 阶段 2: 探索 (Exploration) │
│ → "有哪些可能的替代方案?各方可能的偏好是什么?" │
├─────────────────────────────────────────────────────────────┤
│ 阶段 3: 规划 (Planning) │
│ → "下一步应该提出什么提案?如何推进谈判?" │
└─────────────────────────────────────────────────────────────┘关键发现
| 策略调整 | 效果 |
|---|---|
| 添加"推断他人偏好"指令 | 显著提高成功率 |
| 规划阶段 | 防止方案饱和,保持探索多样性 |
| 多轮记忆 | 避免重复提出被拒方案 |
对抗性动态
贪婪智能体的影响
正常智能体组:集体收益最大化
↓
引入贪婪智能体:个人收益↑,集体收益↓
↓
影响:其他智能体被迫调整策略恶意智能体的策略
| 策略类型 | 行为 | 影响 |
|---|---|---|
| 针对性攻击 | 形成联盟对抗特定方 | 目标方被边缘化 |
| 操纵诱导 | 引导他人走向贪婪 | 集体信任崩溃 |
| 信息误导 | 虚假披露偏好 | 谈判效率下降 |
⚠️ 安全警示: "智能体可以被引导走向贪婪或操纵,从而改变其他妥协智能体的行为。"
失败案例分析
典型失败模式
失败类型 1:算术错误
┌─────────────────────────────────────────────────────────────┐
│ 智能体计算:这个交易给我 65 分 │
│ 实际情况:交易只给 45 分(低于 50 分阈值) │
│ 结果:提出对自己不利的方案 │
└─────────────────────────────────────────────────────────────┘
失败类型 2:ToM 缺陷
┌─────────────────────────────────────────────────────────────┐
│ 智能体推断:对方应该接受这个方案 │
│ 实际情况:完全误判对方偏好 │
│ 结果:谈判陷入僵局 │
└─────────────────────────────────────────────────────────────┘
失败类型 3:探索不足
┌─────────────────────────────────────────────────────────────┐
│ 智能体行为:反复提出相似方案 │
│ 问题:未探索其他可能的帕累托改进 │
│ 结果:错过可行协议 │
└─────────────────────────────────────────────────────────────┘实际应用启示
1. LLM 谈判代理的限制
| 场景 | 适用性 |
|---|---|
| 简单二方谈判 | ✅ 可用 |
| 复杂多方谈判 | ⚠️ 需要监督 |
| 高风险商业谈判 | ❌ 不推荐自主 |
2. 安全部署建议
- 人类监督: 关键决策需人类审核
- 对抗测试: 部署前进行对抗性测试
- 算术验证: 添加外部计算验证层
3. 改进方向
当前瓶颈 改进方向
──────── ────────
算术能力弱 → 外部计算工具集成
ToM 不稳定 → 显式偏好建模
探索不足 → 强化学习优化策略
对抗脆弱 → 对抗性训练总结
这篇论文揭示了 LLM 在复杂谈判场景中的能力边界:
| 维度 | 发现 |
|---|---|
| 任务难度 | "极具挑战性"——即使 GPT-4 也只有 81% 成功率 |
| 核心瓶颈 | 算术准确性和心智理论能力 |
| 对抗脆弱 | 单个贪婪/恶意智能体可破坏集体合作 |
| 提示工程 | 分阶段 CoT 显著提升表现 |
💡 核心洞察: LLM 在谈判中展现了基础合作能力,但距离真正的"谈判专家"还有很长的路——特别是在面对复杂计算、多方博弈和对抗性环境时。