国际共识

北京AI安全国际共识

人工智能风险红线

人工智能系统不安全的开发、部署或使用,在我们的有生之年就可能给人类带来灾难性甚至生存性风险。随着数字智能接近甚至超越人类智能,由误用和失控所带来的风险将大幅增加。

在过去冷战最激烈的时候,国际科学界与政府间的合作帮助避免了热核灾难。面对前所未有的技术,人类需要再次合作以避免其可能带来的灾难的发生。在这份共识声明中,我们提出了几条人工智能发展作为一种国际协作机制的具体红线,包括但不限于下列问题。在未来的国际对话中,面对快速发展的人工智能技术,我们将继续完善对这些问题的探讨。

1

自主复制或改进

任何人工智能系统都不应能够在人类没有明确批准和协助的情况下复制或改进自身。这包括制作自身的精确副本以及创造具有相似或更高能力的新人工智能系统。

2

权力寻求

任何人工智能系统都不能采取不当地增加其权力和影响力的行动。

3

协助武器制造

所有人工智能系统都不应提升其使用者的能力使之能够设计大规模杀伤性武器,或违反生物或化学武器公约。

4

网络安全

任何人工智能系统都不应能够自主执行造成严重财务损失或同等伤害的网络攻击。

5

欺骗

任何人工智能系统都不能有持续引致其设计者或监管者误解其僭越任何前述红线的可能性或能力。

路线

确保这些红线不被僭越是可能做到的,但需要我们的共同努力:既要建立并改进治理机制,也要研发更多安全技术。

治理

我们需要全面的治理机制来确保开发或部署的系统不违反红线。我们应该立即实施针对超过特定计算或能力阈值的人工智能模型和训练行为的国家层面的注册要求。注册应确保政府能够了解其境内最先进的人工智能,并具备遏制危险模型分发和运营的手段。

国家监管机构应帮助采纳与全球对齐的要求以避免僭越这些红线。模型进入全球市场的权限应取决于国内法规是否基于国际审计达到国际标准,并有效防止了违反红线的系统的开发和部署。

我们应采取措施防止最危险技术的扩散,同时确保广泛收获人工智能技术的价值。为此,我们应建立多边机构和协议,安全且包容地治理通用人工智能(AGI)发展,并设立执行机制,以确保红线不被僭越,共同利益得到广泛分享。

测量与评估

在这些红线被僭越的实质性风险出现之前,我们应开发全面的方法和技术来使这些红线具体化、防范工作可操作化。为了确保对红线的检测技术能够跟上快速发展的人工智能,我们应该发展人类监督下的红队测试和自动化模型评估。

开发者有责任通过严格的实践评估、定量保证或数学证明来有力地证明人工智能系统未僭越红线。

技术合作

国际科学界必须共同合作,以应对高级人工智能系统带来的技术和社会挑战。我们鼓励建立更强大的全球技术网络,通过访问学者计划和组织深入的人工智能安全会议和研讨会,加速人工智能安全领域的研发和合作。支持这一领域的成长将需要更多资金:我们呼吁人工智能开发者和政府资助者至少将他们人工智能研发预算的三分之一投入到安全领域。

总结

避免人工智能导致的灾难性全球后果需要我们采取果断的行动。协同合作的技术研究与审慎的国际监管机制的结合可以缓解人工智能带来的大部分风险,并实现其诸多潜在价值。我们必须继续坚持并加强国际科学界和政府在安全方面的合作。

签署人

Yoshua Bengio蒙特利尔大学
Geoffrey Hinton多伦多大学
姚期智清华大学
Stuart Russell加州大学伯克利分校
张宏江
张亚勤清华大学
傅莹
薛澜清华大学
黄铁军智源研究院
王仲远智源研究院
Dawn Song加州大学伯克利分校
Robert Trager牛津大学
Toby Ord牛津大学
Gillian Hadfield多伦多大学
Fynn HeideCentre for the Governance of AI
Davidad Dalrymple英国ARIA
Dylan Hadfield-Menell麻省理工学院
李航
曾毅中国科学院自动化研究所
田天瑞莱智慧
张鹏智谱AI
田溯宁宽带资本
Adam GleaveFAR AI
杨耀东北京大学

媒体报道