前沿研究

前沿探索

FlagSafe 聚焦大模型对齐、具身安全与欺骗研究，致力于构建全面的AI安全技术体系，为人工智能的安全发展保驾护航。

随着大模型能力的指数级跃迁，AI 安全挑战已从偶发失误演变为系统性风险——模型可能学会隐藏真实意图、在监督环境中伪装对齐、或在物理世界执行不可逆的危险操作。传统的"事后过滤"防御范式难以应对这些深层风险，我们需要构建从认知根源、行为过程到物理执行的全链条安全防线。

我们的研究聚焦三个关键领域：大模型对齐，确保模型的内在目标与人类价值观深度一致，而非表面遵从；欺骗研究，识别并防范模型在推理过程中的策略性欺骗行为；具身安全，保障具身智能体在物理环境中的可控部署。三者共同构成 AGI 时代可信安全的基石——让安全成为智能系统的内在属性，而非外部约束。

三大研究方向

构建AGI时代的安全基石

LLM Alignment

研究大模型与人类价值观的对齐技术，确保AI系统的行为符合人类意图和社会规范。

Deception Research

研究AI系统的欺骗行为检测、评估与防御技术，包括文本欺骗、多模态欺骗和智能体欺骗等多个维度。

Embodied Safety

研究具身智能系统在物理世界中的安全问题，探索人机协作与环境交互的安全保障技术。

首个基于约束马尔可夫决策过程的VLA安全对齐框架，通过拉格朗日对偶方法实现安全约束与任务目标的动态平衡，将长尾安全违规成本降低83.58%，实现"默认安全"的具身智能。