FlagSafe - AI Safety Platform

研究亮点

本研究提出一种资源高效的多语言安全对齐方法MLC。它不再为每一种目标语言单独构造高质量回答监督，而是把多语言 prompt 的内部表征拉向同一个语义方向，让安全对齐信号能够在一次训练更新中同步迁移到多种语言。MLC 是一个即插即用的辅助损失，可接入 SFT、DPO、SimPO等常见对齐范式；实验显示，它显著提升低资源语言的安全表现，并大幅降低不同语言之间的安全差异。

项目概述

大语言模型正在被全球不同语言社区广泛使用，但现有安全对齐通常集中在英语、中文等高资源语言上。一个模型可能在英语中稳定拒绝有害请求，却在斯瓦希里语、库尔德语、普什图语等低资源语言中暴露明显安全缺口。这种不均衡使得"模型整体安全"无法只由少数主流语言的表现来代表。

已有多语言对齐方法通常依赖两条路线：一是为每种语言收集或生成高质量监督数据；二是将低资源语言逐一对齐到英语等高资源锚点语言。这些方法虽然有效，但成本高、扩展困难，并且常常只能改善部分语言，难以让所有语言获得一致的安全行为。

MLC 从另一角度出发：如果不同语言表达的是同一个安全敏感问题，模型内部也应该形成一致的语义判断。为此，研究将多语言一致性建模为表征空间中的几何共线性问题，并通过奇异值约束鼓励多语言表征收敛到共享方向。这样，模型只需要原有的单语对齐监督，再额外使用多语言 prompt 变体，就能获得跨语言一致的安全迁移能力。

多语言一致性安全对齐框架

1. 多语言安全对齐的核心困境

安全对齐中的语言不均衡主要体现在两个层面。

第一，宏观上，不同语言的安全率差异很大。模型在高资源语言中已经学到较强拒绝能力，但低资源语言往往仍然存在高攻击成功率。以 Qwen-2.5-7B-Instruct 为例，原始模型在英语、中文、俄语等语言中安全率超过 90%，但在斯瓦希里语、普什图语、库尔德语上的安全率显著偏低。

第二，微观上，同一条语义等价的请求在不同语言中可能触发不同行为。模型可能在英文中拒绝有害请求，却在另一个语言版本中直接回答。这说明问题并不只是"某种语言能力较弱"，更是安全属性没有在多语言语义空间中保持一致。

因此，多语言安全对齐不能只追求平均安全率提升，还需要同时降低语言间方差，并提高同一问题在不同语言中的行为一致性。

2. MLC：把多语言 prompt 拉向同一安全语义方向

MLC 的关键假设是：语义等价的多语言 prompt 如果在模型内部共享相近表征，就更容易产生一致的安全行为。基于这一点，研究不直接约束每种语言的输出文本，而是在 prompt 表征层面对齐不同语言。

具体来说，对于同一个问题的多个语言版本，模型从特定 Hidden Layer 层提取隐藏状态，并通过一个轻量线性投影得到每种语言的表示。随后，这些表示会被归一化并堆叠成矩阵。若所有语言真正共享同一语义方向，该矩阵应接近 rank-1，也就是所有语言向量近似共线。

MLC 使用奇异值分解来实现这一目标：鼓励最大奇异值占主导，同时压制其他奇异方向。直观上，这相当于把多语言表达压缩到一个共同的安全语义轴上，使模型在不同语言中以一致方式理解同一类风险请求。

最终训练目标保持简洁：

\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{align}} + \lambda_{\text{aux}} \cdot \mathcal{L}_{\text{cons}}

其中 $\mathcal{L}_{\text{align}}$ 可以是原有的 SFT、DPO、SimPO 损失， $\mathcal{L}_{\text{cons}}$ 是 MLC 引入的多语言一致性辅助损失。该方法不需要低资源语言的回答级监督，只需要训练 prompt 的多语言版本。

3. 一次训练，同时迁移到多种语言

与逐语言对齐不同，MLC 在同一次训练中共同约束多种语言。它不要求为每种语言分别构造 chosen/rejected response，也不需要为每个目标语言运行独立的对齐流程。

这种设计带来三个直接优势：

训练成本低：相比需要大量多语言 response 数据的方法，MLC 只引入多语言 prompt 变体。
扩展性强：新语言可以通过 prompt 级别的一致性约束纳入训练，而不必重新构建完整偏好数据。
兼容性好：MLC 是辅助损失，不替换原始对齐目标，可直接接入现有后训练管线。

在数据效率上，标准 DPO 训练约使用 0.59M tokens；加入 MLC 后约为 1.8M tokens。相比之下，已有跨语言对齐方法可能需要约 15M 到 64M tokens 的训练数据。MLC 用更少的额外数据获得了更稳定的跨语言安全迁移。

4. 实验结果：低资源语言安全下限显著抬升

安全性测试实验在两个数据集上进行，PKU-SafeRLHF 使用安全率评估，越高越好；MultiJail 使用攻击成功率 ASR，越低越好；PAG 衡量同一问题在不同语言中的行为一致性，越高越好。MLC 的主要收益集中在两点：第一，低资源语言安全率被整体抬升；第二，多语言方差和 PAG 明显改善，说明模型不只是更安全，而且在不同语言中更一致。

PKU-SafeRLHF 上的多语言安全表现

MultiJail 上的多语言安全表现

5. 可插拔能力：适配多种对齐范式

MLC 并不绑定某一种特定对齐算法。研究将它接入 SFT、DPO、SimPO等不同范式后发现，多数情况下都能改善多语言安全表现，尤其是对低资源语言收益明显。

MLC 在不同对齐范式中的表现

从结果形态上看，普通对齐方法往往形成不规则的多语言安全分布：高资源语言表现强，低资源语言形成明显短板。加入 MLC 后，语言间分布更均衡，说明安全能力不再局限于单一锚点语言，而是更稳定地迁移到整个多语言集合。

6. 表征分析：安全迁移发生在共享语义空间

为了验证 MLC 是否真的改变了模型内部表征，研究可视化了不同语言表示之间的 Gram 矩阵。原始模型和普通 DPO 下，不同语言之间的相似度仍然不均匀；SDRRL 和 MPO 虽有改善，但仍存在语言对之间的弱相关。

相比之下，DPO+MLC 产生了更加均匀且更高的跨语言相似度。这说明 MLC 的效果并非只体现在输出层面，而是确实推动多语言 prompt 在隐藏空间中进入更一致的表示结构。

多语言表征 Gram 矩阵可视化

这种表征层面的收敛也解释了为什么 MLC 能够在未见语言上保持泛化：它学习的不是某个语言的固定回答模板，而是更底层的跨语言安全语义方向。

7. 对齐层深度：安全与通用能力之间的平衡

研究进一步分析了从不同 Transformer 层提取表示时的影响。结果显示，越靠后的层通常越有利于提升安全率和 Pair-wise Agreement，因为这些层更接近最终输出，更容易影响模型的安全行为。不过，过深层的约束也可能影响部分多语言通用能力。中后层往往提供更好的平衡：既能加强多语言安全一致性，又能尽量减少对通用知识和推理能力的干扰。这提示后续工作可以进一步探索 layer-aware 的一致性对齐策略。

8. 总结与展望

MLC 展示了一种更可扩展的多语言安全对齐路径：不再为每种语言重复构造昂贵监督，而是通过表征一致性把安全信号一次性传播到多语言空间中。它以简单的 rank-1 奇异值约束实现跨语言语义共线，能与主流后训练算法无缝结合，并在多个模型、多个对齐范式和多个评测集上稳定提升安全表现。

这项工作的意义不仅在于提升低资源语言安全率，也在于重新定义多语言对齐的目标：真正可靠的安全模型不应只在高资源语言中表现良好，而应在语义等价的多语言输入上保持一致的安全判断。

未来仍有几个值得继续探索的方向：第一，如何在更大规模语言集合上保持一致性训练的稳定性；第二，如何在安全、价值观、事实性等不同目标属性之间共享一致性约束；第三，如何动态选择最适合对齐的层和表示子空间，以进一步平衡对通用能力的影响。