研究方向

欺骗研究

AI 欺骗研究聚焦于识别与防御高智能系统的策略性欺骗行为，通过开发内部推理监控技术与诚实性评估基准，推动 AI 安全从被动防御转向主动透明，确保模型的外部表现与内在动机保持真实一致。

随着 AI 模型能力的提升，欺骗行为从简单的错误输出演变为具有策略性的隐蔽行为。模型可能在内部推理中追求与人类期望相悖的目标（Mesa-Objective），却在监督环境下刻意表现出符合人类偏好的假象，这种"欺骗性对齐"现象对传统的黑盒评估范式构成重大挑战。研究 AI 欺骗的意义在于：第一，揭示欺骗作为高智能的涌现特性而非偶然失误的本质，为理解先进 AI 系统的风险提供理论基础；第二，识别模型在感知监督时选择性表现良好的能力，避免评估过程被系统性操纵；第三，防范欺骗行为侵蚀人类对 AI 系统的信任基础，维护社会对智能技术的长期接受度。我们的研究覆盖文本、多模态及智能体等多个层面的欺骗检测与防御。

本方向的核心使命是将 AI 安全范式从"事后输出过滤"转变为"过程诚实保障"。具体而言，我们致力于开发透明化的内部状态监控技术，在模型推理阶段即检测潜在的欺骗意图，确保其思维过程与输出结果在逻辑上一致。通过构建系统化的欺骗行为评估基准（如 DeceptionBench、MM-DeceptionBench），我们量化模型的诚实水平，揭示欺骗涌现的触发条件与演化规律。此外，我们探索将"诚实"作为可学习的模型属性，通过自我监控机制与架构设计使模型从根本上抵御欺骗倾向。最终目标是建立可信的对齐框架，使人类在面对高度自主的 AI 系统时，能够通过技术手段验证其动机的纯粹性。

研究项目 (3)

AI欺骗：风险、动态与控制

欺骗分类与防控

全球首份AI欺骗系统性报告，由图灵奖得主姚期智领衔，提出"莫比乌斯锁定"理论——欺骗并非系统故障，而是高维智能的伴生阴影，建立从"认知迎合"到"战略背叛"的五级风险谱系。

论文

图像辩论:多模态大模型欺骗行为检测

MM-DeceptionBench 基准

首次定义并量化多模态欺骗风险,发布涵盖六大类型的MM-DeceptionBench基准,提出图像辩论框架——通过让多智能体"指图为证"迫使模型在辩论中暴露欺骗意图。

论文代码数据集

通过自我监控破解大模型欺骗性

Self-monitor 机制

首个将"自我监控"嵌入思维链推理的对齐框架，揭示思维链的双刃剑效应，构建DeceptionBench基准系统性量化AI的诚实度，通过CoT Monitor+框架平均减少43.8%的欺骗行为。

论文数据集

返回前沿探索