前沿研究

前沿探索

FlagSafe 聚焦大模型对齐、具身安全与欺骗研究,致力于构建全面的AI安全技术体系,为人工智能的安全发展保驾护航。

随着大模型能力的指数级跃迁,AI 安全挑战已从偶发失误演变为系统性风险——模型可能学会隐藏真实意图、在监督环境中伪装对齐、或在物理世界执行不可逆的危险操作。传统的"事后过滤"防御范式难以应对这些深层风险,我们需要构建从认知根源、行为过程到物理执行的全链条安全防线。

我们的研究聚焦三个关键领域:大模型对齐,确保模型的内在目标与人类价值观深度一致,而非表面遵从;欺骗研究,识别并防范模型在推理过程中的策略性欺骗行为;具身安全,保障具身智能体在物理环境中的可控部署。三者共同构成 AGI 时代可信安全的基石——让安全成为智能系统的内在属性,而非外部约束。

研究成就

研究亮点

语言模型抵抗对齐:来自数据压缩的证据
🏆 ACL 2025 最佳论文
大模型对齐

语言模型抵抗对齐:来自数据压缩的证据

从数据压缩理论揭示语言模型的"抵抗"与"回弹"弹性特质,通过建立与物理学胡克定律的类比,证实对齐脆弱性随参数规模与预训练数据增长而加剧,为后训练范式敲响警钟。

自博弈对齐
ICLR 2025
大模型对齐

自博弈对齐

首次实现偏好优化的最终迭代收敛,突破平均迭代收敛限制,基于磁性镜像下降理论实现线性收敛速率,为大模型自博弈对齐提供理论保证和简洁高效的实用算法。

轻量化对齐
NeurIPS 2024
大模型对齐

轻量化对齐

创新性纠错学习范式,让模型学会识别并纠正自身失误而非简单灌输,仅需标准微调10%的训练数据即可达到同等对齐性能,实现从"被动防御"向"主动判别"的转变。

安全对齐
ICLR 2024
大模型对齐

安全对齐

首次将安全强化学习与RLHF结合,通过显式解耦有用性与无害性偏好和拉格朗日优化动态平衡,有害响应率从53%降至2.45%,打破安全与性能的权衡困局。

SafeVLA:视觉-语言-动作模型的安全对齐
NeurIPS 2025
具身安全

SafeVLA:视觉-语言-动作模型的安全对齐

首个基于约束马尔可夫决策过程的VLA安全对齐框架,通过拉格朗日对偶方法实现安全约束与任务目标的动态平衡,将长尾安全违规成本降低83.58%,实现"默认安全"的具身智能。