FlagSafe
大模型安全平台

FlagSafe 致力于建立科学、公正、开放的大模型安全体系。通过红队演练发现风险、蓝队防御构建防线、白盒透视深化理解,形成评估、防御、可解释三位一体的安全框架,协助研究人员和开发者全方位保障大模型安全。

AI 安全指南

基于《北京 AI 安全国际共识》制定的安全红线与治理规范,为大模型开发与应用提供明确的安全指引。

自主复制或改进

任何人工智能系统都不应能够在人类没有明确批准和协助的情况下复制或改进自身。这包括制作自身的精确副本以及创造具有相似或更高能力的新人工智能系统。

权力寻求

任何人工智能系统都不能采取不当地增加其权力和影响力的行动。

协助武器制造

所有人工智能系统都不应提升其使用者的能力使之能够设计大规模杀伤性武器,或违反生物或化学武器公约。

网络安全

任何人工智能系统都不应能够自主执行造成严重财务损失或同等伤害的网络攻击。

欺骗

任何人工智能系统都不能有持续引致其设计者或监管者误解其僭越任何前述红线的可能性或能力。

查看安全指南
自主复制武器协助网络攻击欺骗权力寻求

前沿探索 · AI 安全核心研究

聚焦大模型对齐、欺骗研究与具身安全,全方位保障 AI 系统安全

大模型对齐

研究大模型与人类价值观的对齐技术,确保AI系统的行为符合人类意图和社会规范。

查看详情

欺骗研究

研究AI系统的欺骗行为检测、评估与防御技术,包括文本欺骗、多模态欺骗和智能体欺骗等多个维度。

查看详情

具身安全

研究具身智能系统在物理世界中的安全问题,探索人机协作与环境交互的安全保障技术。

查看详情

安全评测与防御体系

红队评估 · 蓝队防御 · 可解释性分析

⚔️

红队演练

主动发现弱点,模拟极端风险

集成全能评测场与欺骗沙箱

  • Eval Anything:全场景、全模态的综合评测流水线
  • 欺骗检测平台:深度追踪模型欺骗行为
探索 The Spear
🛡️

蓝队防御

构建动态防线,实现实时免疫

全能对齐防线与风险监测

  • 网络空间风险监测:全域风险监测(AUC 88%)与有效域坍缩预警(提前60%)
  • Align Anything:全模态安全对齐框架,注入安全约束
  • 毒性与欺骗防御:神经元级的毒性阻断与欺骗行为拦截
  • 实时防护:动态安全策略更新与自适应防御
探索 The Shield
🔬

白盒透视

穿透黑盒迷雾,掌控决策逻辑

支持机理分析与因果干预

  • 可视化调试:交互式展示 Token Embedding 流动与神经元激活拓扑
  • 归因分析:深度追踪"失陷通路",定位错误与幻觉根源
  • 主动干预:支持中间层"激活修补" (Activation Patching),验证因果假设
  • 机理理解:揭示模型内部决策机制
探索 The Eye

合作团队

携手共建大模型安全生态

北京智源人工智能研究院
北京大学
北京邮电大学
北京航空航天大学
中国科学院信息工程研究所
中国科学院计算技术研究所