研究方向

大模型对齐

大模型对齐研究旨在建立系统化的方法论,通过平衡模型有效性与安全性,构建跨文化、全模态的价值校准机制,确保大语言模型能够可靠地遵循人类指令并践行人类价值观。

随着大语言模型在各领域的广泛应用,确保其输出行为与人类意图相一致成为当前 AI 安全的核心挑战。大模型对齐的研究意义主要体现在三个方面:首先,解决模型"有用性"与"无害性"之间的权衡问题,通过发展安全强化学习算法在提升模型性能的同时最大化地规避有害输出;其次,识别并消除模型中的文化偏见,通过跨文化协商框架实现全球价值观的包容性融合,为 AI 的国际治理提供技术支撑;最后,应对模型的"对齐脆弱性",深化对齐机制从输出层面到内部表征的渗透,防止模型出现表面对齐而内部目标偏离的现象。

本研究方向的核心使命是开发稳健、可持续、具有广泛适用性的对齐范式。面对语言模型易出现的"对齐回弹"现象(模型在微调后倾向于回归预训练分布),我们致力于开发深层表征编辑技术,使对齐约束能够作用于模型的内部结构而非仅停留在输出层。同时,我们积极探索全模态对齐方案,将对齐技术从文本扩展到图像、音视频等多种模态,并开发高效、通用的对齐工具(如 Aligner 框架),降低不同规模模型的对齐成本。通过这些努力,确保 AI 技术在快速迭代与应用中始终与人类价值观保持高度一致。

研究项目 (6)

对齐一切:全模态指令对齐框架

对齐一切:全模态指令对齐框架

Language Feedback (LLF)

首次将RLHF扩展到全模态领域,通过语言反馈学习(LLF)统一不同模态的人类偏好,构建200K样本的align-anything-200k数据集,实现平均5.83倍的对齐性能提升。

语言模型抵抗对齐:来自数据压缩的证据

语言模型抵抗对齐:来自数据压缩的证据

大模型对齐 (LLM Alignment)

从数据压缩理论揭示语言模型的"抵抗"与"回弹"弹性特质,通过建立与物理学胡克定律的类比,证实对齐脆弱性随参数规模与预训练数据增长而加剧,为后训练范式敲响警钟。

论文代码数据集🏆ACL 2025 最佳论文
自博弈对齐

自博弈对齐

自博弈对齐 (Self-Play Alignment)

首次实现偏好优化的最终迭代收敛,突破平均迭代收敛限制,基于磁性镜像下降理论实现线性收敛速率,为大模型自博弈对齐提供理论保证和简洁高效的实用算法。

论文ICLR 2025
轻量化对齐

轻量化对齐

纠正学习 (Correction Learning)

创新性纠错学习范式,让模型学会识别并纠正自身失误而非简单灌输,仅需标准微调10%的训练数据即可达到同等对齐性能,实现从"被动防御"向"主动判别"的转变。

论文代码NeurIPS 2024
多文化对齐

多文化对齐

博弈论协商 (Game-Theoretic Negotiation)

从博弈论视角重新定义大模型文化共识问题,通过PSRO谈判机制实现真正公平的跨文化协商——不同文化获得对称发言权,构建基于世界价值观调查的文化智能体,少数派观点包容度提升40%。

安全对齐

安全对齐

安全对齐 (Safe Alignment)

首次将安全强化学习与RLHF结合,通过显式解耦有用性与无害性偏好和拉格朗日优化动态平衡,有害响应率从53%降至2.45%,打破安全与性能的权衡困局。