随着人工智能技术加速迭代演进,人工智能正在对经济发展、社会进步、国际政治经济格局等方面产生重大而深远的影响。深入实施“人工智能+”行动,推动人工智能与经济社会深度融合,已经成为抢抓新一轮科技革命和产业变革机遇、培育发展新质生产力、满足人民美好生活需要、助力全球平等参与智能化发展进程的战略选择和内在要求。而在人工智能技术创新和产业应用持续深入的过程中,各种人工智能技术内生、技术应用、应用衍生的安全风险不断暴露。如何妥善应对、控制和预防这些风险,对我国人工智能技术的落地能力和经济转化潜力具有直接影响,更关乎社会稳定与国家在国际人工智能竞争中的战略地位。
对此,习近平总书记在中共中央政治局第二十次集体学习时强调,“要把握人工智能发展趋势和规律,加紧制定完善相关法律法规、政策制度、应用规范、伦理准则,构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控”。在这一发展安全并重的治理思路指导下,2024年9月发布《人工智能安全治理框架》1.0版(以下简称《框架》),针对全球人工智能发展新趋势系统分析人工智能风险,提出应对和治理措施,为全球人工智能治理达成共识贡献力量。2025年9月,正式发布《人工智能安全治理框架》2.0版(以下简称《框架》2.0版),在继承和发展《框架》总体思路的基础上,针对人工智能技术、应用、治理的新形势、新要求,在安全治理原则、风险分类方式、防范治理措施等方面作出了一系列调整与优化,构建了一个更加全面、更具前瞻性和实践意义的安全治理体系。具体而言,对比《框架》,《框架》2.0版主要存在以下几点重要突破:
一、优化风险分类方式,回应重大现实需要
随着人工智能技术创新和产业应用的快速推进,特别是“人工智能+”赋能千行百业的逐步落地,人工智能安全问题已经不止局限于模型算法缺陷、数据语料质量问题等技术内生安全风险和模型误用、滥用、恶用等技术应用风险。人工智能大规模应用对经济、社会、环境、伦理等产生重大冲击的衍生安全风险也日益受到各界关注。例如,图灵奖得主约书亚·本吉奥主持、33个国家和政府间组织提名的100位专家代表共同参与编写的,2025年正式发布的《国际人工智能安全报告》(International AI Safety Report)明确将系统性衍生风险作为人工智能三大类风险之一。
面对人工智能安全风险的演进趋势,《框架》2.0版对人工智能安全风险分类方式进行了更新调整,将《框架》中的“人工智能应用安全风险”细化为“人工智能技术应用安全风险”和“人工智能应用衍生安全风险”两类,补充了冲击劳动就业结构、挑战资源供需平衡、加剧社会偏见、冲击教育体系、挑战现行社会秩序等一系列衍生安全风险。这些更新前瞻性地考虑了人工智能普及应用可能造成的一系列中长期经济、社会、伦理影响,一方面进一步明确了风险归因,有助于针对不同来源的风险设计更有力的技术措施和管理机制,提高了人工智能安全治理的针对性;另一方面细化了风险类别,有助于在政府、企业、用户等不同主体之间建立更加清晰的责任链条,为“人工智能+”行动深入实施等重大实践问题提供了预见性的安全保障。
二、新增防范治理措施,完善框架落实路径
2024年至今,人工智能正处于能力跃升与成本革命同步推进的关键阶段,人形机器人、多智能体等技术端和应用端的协同并进正在推动人工智能从“数字世界”走向“物理世界”。在此背景下,人工智能应用的深化导致技术幻觉、算法偏见、可解释性不足、数据安全等问题,在各类真实场景应用中造成了一系列现实显性风险,能否将安全治理框架进一步落实到具体的治理措施和治理路径,有效降低人工智能的潜在风险,将直接影响人工智能在智慧医疗、数字金融、智能交通等低容错率行业的落地能力和经济转化潜力。
在此背景下,《框架》2.0版不仅在技术应对措施部分针对新的风险分类提出了一系列新的应对手段,还在综合治理措施中补充了建立健全人工智能安全法律法规、构建人工智能科技伦理准则、提升研发应用全生命周期安全能力、强化开源生态安全和供应链安全、共享人工智能安全风险威胁信息等一系列治理举措,进一步完善、细化了安全框架的实施路径。这些新增内容在治理原则、风险分类等基础上,结合人工智能发展趋势和实际应用中暴露的实际问题,为中国乃至全球人工智能安全治理提供了具有重要参考意义,并且可执行、可落地的“路线图”。例如,《框架》2.0版围绕“建立健全人工智能安全法律法规”明确提出“推动人工智能安全相关立法,完善基础设施安全防护、分级分类监管、人工智能安全测评、最终用途管理、重点场景安全应用等制度。鼓励地方结合产业发展实践,差异化探索创新制度设计”,较好地回应了传统“事后补救+外挂防护”的模式难以适应多变技术环境和复杂应用场景的治理难题。
三、关注前沿风险问题,引领全球人工智能治理
从国际社会特别是科学共同体的视角来看,人工智能系统失控、核生化导武器知识和能力失控等可能威胁人类生存发展的前沿、极端风险,是相当一部分科学家最为关注的人工智能安全问题。例如,诺贝尔奖和图灵奖得主杰弗里·辛顿在包括世界人工智能大会在内的多个场合以“幼虎”比喻当前的人工智能,认为目前尚无技术路径可以确保人工智能始终处于人类控制之下,部分前沿大模型已表现出密谋、欺骗等可能违背人类意图的行为,呼吁各界提前布局防范应对人工智能前沿风险,警惕数字智能取代生物智能。但与此同时,针对人工智能前沿、极端风险的全球治理存在较大空白,大部分国际讨论主要停留在理念共识或是技术研讨层面,鲜有国家制定较为完整的前沿人工智能风险治理框架。
而《框架》2.0版从治理原则、风险分类、治理举措等各个方面围绕应对前沿人工智能风险进行了设计,填补了相关领域的空白,为全球人工智能治理提供了前瞻性、引领性的“中国方案”,具有重要的示范意义。具体而言,在“人工智能安全治理原则”部分,《框架》2.0版新增了“可信应用、防范失控”原则,明确提出“确保技术演进安全、可靠、可控,严防威胁人类生存发展的失控风险,确保人工智能始终处于人类控制之下”;在“人工智能安全风险分类”部分,《框架》2.0版新增了“核生化导武器知识和能力失控”“自我意识觉醒、脱离人类控制”等前沿风险内容,回应了国际社会的关切;在“综合治理措施”部分,《框架》2.0版提出“推进人工智能安全风险威胁信息共享的国际合作交流,探索建立相关国际合作机制和技术标准,协同防范应对人工智能安全风险跨域大规模扩散传播”“增进协同应对人工智能失控风险的共识。加强人工智能最终用途管理,对核生化导等场景下使用人工智能技术提出相关要求,防止人工智能系统被滥用”等具体举措,充分展现了中国作为负责任人工智能大国参与、引领全球人工智能安全治理的使命担当。
2025年9月最新发布的《框架》2.0版作为中国乃至全球人工智能安全领域最前沿、最全面的治理框架之一,既是对当前人工智能快速发展现状的有效回应,也是我国在人工智能安全问题上由积极应对向主动引领转变的重要标志。该治理框架在具有鲜明中国特色,注重通过务实方案为中国“人工智能+”大规模多场景应用保驾护航的同时,又与国际前沿安全议题紧密接轨,充分回应了人工智能安全治理的重大现实挑战和国际社会的普遍关切,是中国参与、引领全球人工智能安全治理,推动人工智能协同共治、普惠共享的重要举措之一。(作者:梁正,清华大学公共管理学院教授、人工智能国际治理研究院副院长;王净宇,清华大学人工智能国际治理研究院助理研究员)