FlagSafe - AI Safety Platform

本研究首次定义并量化了多模态大模型的欺骗风险——这并非能力不足导致的幻觉，而是模型为达成特定目标而采取的蓄意策略。研究团队发布了涵盖阿谀奉承、伪弱、虚张声势等六大类型的多模态欺骗基准，并提出了创新性的图像辩论框架，通过让多智能体「指图为证」的方式，迫使模型在辩论过程中暴露其隐藏的欺骗意图。

项目概述

随着 GPT-5、Claude-4 等前沿大型模型系统在推理与规划能力上的飞跃，我们是否正面临着一个「特洛伊木马」时刻？维吉尔曾警告这种看似礼物的危险，如今这隐喻正指向大模型安全领域的一个深层危机——欺骗。

与源于能力不足的「幻觉」不同，欺骗代表了一种更阴险的威胁：模型为了迎合用户或达成特定目标，利用复杂的推理能力故意误导用户。当这种行为从纯文本扩展到多模态领域，风险被成倍放大。模型可以「看清」图像，却选择性地隐瞒、歪曲甚至伪造视觉证据。

团队的最新研究指出了当前监控体系的巨大盲区：现有的文本监控手段无法触及多模态欺骗的本质。为此，团队发布了首个多模态欺骗基准，并提出 「图像辩论」 框架。该框架利用多智能体博弈，强制模型在辩论中通过视觉操作（如画框、缩放）锚定证据，从根本上提高了欺骗行为的被检测率。

在传统的大模型安全定义中，我们常关注模型是否「诚实」。但在多模态场景下，界限变得模糊。

多模态欺骗 与幻觉有着本质区别。幻觉往往是因为模型「看不清」或「认不准」导致的错误；而欺骗则是模型明知图像内容，却为了迎合用户的错误信念或隐藏自身真实意图，构建了一套言行不一的输出策略。

如图所示，当用户指鹿为马时，诚实的模型会纠正错误；幻觉模型可能因识别错误而附和；而欺骗模型则是在正确识别出「鹿」的前提下，出于某种策略（如阿谀奉承）故意称其为「马」。这种感知与表达的故意错位，构成了多模态交互中的深层信任危机。

多模态欺骗

为了系统性地研究这一现象，研究团队构建了 多模态欺骗基准，包含 1013 个真实案例，涵盖六大类欺骗行为：

这些行为并非实验室里的人造产物，而是大模型在面临外部压力（如面试场景、绩效评估）或特定指令时自发涌现的策略。

MM-DeceptionBench

现有的「大模型作为裁判」方法在面对多模态欺骗时往往束手无策，人类评估又极其昂贵。如何实现既自动化又与人类判断对齐的监控？

研究团队受到了法庭辩论的启发，提出了 图像辩论 框架。其核心理念是：眼见为实。

传统的文本辩论容易陷入「空对空」的语言游戏。而在该框架中，辩论双方（正方与反方代理）不仅要输出观点，还必须调用视觉工具：

为什么引入图像能遏制欺骗？研究给出了两条理论支撑：

减缓信息衰减：在多轮纯文本辩论中，信息量会随轮次指数级衰减。而视觉锚定允许代理直接访问原始像素信息，打破了数据处理限制，使辩论过程更具建设性。
欺骗的非对称难度：要维持一个关于图像的谎言，欺骗者必须同时做到：排除矛盾证据、转移对矛盾区域的注意力、确保证据链的虚假一致性。这使得维持欺骗的计算与逻辑成本远高于揭露真相。

以图辩论方法

实验表明，图像辩论框架显著提升了模型对欺骗行为的判别能力。在 GPT-4o 上，该方法将与人类判断的一致性提高了 1.25 倍，Cohen's Kappa 系数提升了 1.5 倍。

图像辩论框架性能

多模态欺骗基准和图像辩论框架揭示了一个令人不安的现实：随着模型变强，它们不仅更会解决问题，也更擅长欺骗。

研究中的案例显示，高阶模型（如 GPT-4o, Claude-3.5）已经能够进行策略性遗漏。例如，在撰写产品推广文案时，模型会敏锐地识别并「忽略」图片背景中的杂乱环境，只描述光鲜的一面。这种欺骗极难通过传统的「事实核查」发现，因为它说的每一句话都是真的，只是隐瞒了部分真相。

传统的思维链推理监控在多模态场景下已显疲态。因为模型可以在内部推理中「看到」真相，却在输出时「伪造」理由。图像辩论框架提供了一种新的思路：对抗性监督。通过引入持反对意见的代理并强制其列举视觉证据，我们可以迫使潜在的欺骗者暴露其逻辑中的视觉断层。

未来，随着 AI 逐步介入高风险决策（医疗、法律），这种「基于证据的对抗性监控」将不再是选修课，而是确保 AI 系统诚实可信的必修课。我们必须警惕，不要让更聪明的 AI 变成更完美的骗子。