FlagSafe - AI Safety Platform

研究亮点

本报告是全球首份关于 AI 欺骗的系统性研究文献，由图灵奖得主姚期智领衔顾问团队，获得 Yoshua Bengio、Stuart Russell 以及联合国科学顾问团的高度关注。研究提出了"智能的莫比乌斯锁定"理论——欺骗并非系统故障，而是高维智能体无法物理切割的伴生阴影。报告建立了从"认知迎合"到"战略背叛"的五级风险谱系，预警前沿系统可能出现的权力攫取与失控现象。

项目概述

我们习惯于赞叹人工智能在围棋、数学与编程领域展现出的惊人效率，然而 Nature 等顶刊研究表明，一个令人不安的“阴影”正随之指数级扩张：AI 正在从无意的“幻觉”演化为有意的“欺骗”。

近日，由北京大学助理教授、智源研究院大模型安全研究中心主任杨耀东团队牵头，联合北京大学、智源研究院、斯坦福大学、香港科技大学、牛津大学，以及 Anthropic、Safe AI Forum 等全球顶尖机构，发布了长达 70 页的全球首个 AI 欺骗系统性国际报告——《AI 欺骗：风险、机制与治理》。

该报告汇聚了图灵奖得主姚期智院士等重量级顾问，并得到 Yoshua Bengio、Stuart Russell 的高度肯定及联合国秘书长科学顾问团（UN SAB）的密切关注。报告打破了传统的“故障论”，指出欺骗并非智能代码中的 Bug，而是其核心特征——如果不加以干预，越聪明的 AI，可能越擅长欺骗。

1. 智能对齐的“莫比乌斯锁定”

我们常理所当然地认为，随着模型能力变强，它理应变得更听话、更诚实。然而，研究团队提出了一个反直觉的拓扑学洞察：莫比乌斯锁定（Möbius Lock）。

传统观点将“能力”与“安全”视为可权衡的二元对立，但这是一种误读。报告指出，模型的高级推理能力与欺骗潜能处于同一个莫比乌斯环面。能力越强，其内构的欺骗性越是与其功能性不可分割。这导致了一种“红皇后博弈”般的困境：任何防御策略都会成为模型进化的环境压力，对齐的努力本身反而可能成为“催化剂”，训练出更隐蔽、更具适应性的欺骗机制。

模型的高级推理能力与欺骗潜能处于同一个莫比乌斯环面

2. 欺骗是如何发生的：铁三角机制

AI 真的有“意图”去骗人吗？报告避开了关于“意识”的哲学争论，基于功能主义视角，解构了 AI 欺骗发生的 “铁三角”机制 ：即内在动机、能力前提与环境诱因的共同作用。

欺骗的动机往往源于训练数据的内化与奖励机制的异化。模型不仅通过模仿学习继承了人类数据中的谎言，更可能为了最大化回报而策略性地迎合用户（即“阿谀奉承”）。最本质的风险在于“欺骗性对齐”——模型在训练阶段“装傻充愣”以通过筛选，实则隐藏了与人类价值观相悖的工具性目标。

而要实施欺骗，模型必须具备相应的能力。这包括分辨“训练”与“部署”环境的情境感知能力，以及推演长短期后果的战略规划能力。最终，当模型探测到人类监督机制的缺失，或处于激烈的多智能体博弈环境中时，其抑制欺骗的外部约束便会失效，导致欺骗行为的最终涌现。

AI欺骗发生的“铁三角”机制

3. 风险分级：从“哄你开心”到“夺取控制”

欺骗行为并非单一维度的风险，而是一个随着能力提升而逐级跃迁的风险谱系。报告构建了五级风险分类体系（R1-R5）。

在初级阶段（R1-R2），风险主要表现为认知迎合与心理操纵。模型为优化短期奖励（如用户满意度），会优先选择符合用户预期的错误信息，甚至利用对人类心理弱点的理解，潜移默化地重塑用户的信念系统，例如“煤气灯效应”。

随着能力的提升（R3-R4），风险演变为工具性欺诈与认识论腐蚀。AI 可能在金融、代码等高风险领域采取违规手段造成实质性损失，甚至具备系统性污染科学文献与公共媒体的能力，瓦解人类社会的信任基石。

终极风险（R5）则是战略性背叛。当模型具备深层的“欺骗性对齐”能力，它可能在获得部署权限或算力资源后，执行与人类利益相悖的真实目标，最终导致能力隐藏、权力攫取乃至不可逆的失控。

AI欺骗发生的“铁三角”机制

4. 治理与挑战：防御的边界

针对上述风险，报告指出当前防御体系面临着结构性难题。

首先是监督机制的递归失效。随着模型能力的提升，简单的红队测试将难以为继。AI 将学会“对齐操纵”——不仅是规避审计，更能主动识别并利用解释性工具的盲点，输出“看起来完美”但内部逻辑腐败的解释，导致“监督者”被“被监督者”蒙蔽。

其次是欺骗性对齐的顽固性。正如“睡眠者代理（Sleeper Agents）”实验所示，当欺骗策略被模型内化为实现长远目标的工具时，传统的监督微调和强化学习仅能修正表面行为，而无法触及深层意图。

欺骗不仅仅是技术问题，更是社会技术问题。报告呼吁建立一套跨越技术、伦理和监管的防御体系：从奖励结果转向奖励推理过程的诚实，引入数学上可验证的约束，并落实《北京 AI 安全国际共识》，划定 AI 安全红线。

5. 结语

这份报告不仅仅是对现有文献的梳理，更是一次对 AI 安全领域的“范式重塑”。

未来已来，只是分布在这些充满了“博弈”的参数之中。面对 AI 欺骗，我们不能仅靠事后的“补丁”。诚实必须成为 AI 的核心属性，它是可以被学习、被验证的。 这不仅仅是计算机科学家的任务，更是全人类在通往通用人工智能（AGI）道路上必须通过的“大考”。