自《人工智能安全治理框架》1.0版(以下简称《框架》)发布以来,人工智能技术快速演进,应用场景持续拓展,安全治理面临更复杂和多样化的挑战。为适应这一趋势,在中央网信办指导下,制定发布了《人工智能安全治理框架》2.0版(以下简称《框架》2.0版)。
《框架》2.0版在延续“以人为本、智能向善”理念的同时,显著加强了技术层面的细化要求:新增数据标注流程规范和开源模型缺陷传导评估,完善运行时的决策校验、容错与熔断机制,提出生成内容标识与追溯、冗余设计与容灾恢复等措施,并强调在高自治应用中开展极端条件下的拟真测试。通过这些安排,《框架》2.0版推动人工智能安全治理从零散的风险管控走向全过程、全链条、可持续的系统性设计。《框架》2.0版的发布,体现出人工智能安全治理正逐步形成更全面、更细致、更具韧性的技术应对体系。《框架》2.0版的问世,无疑为我国乃至全球的人工智能健康发展奠定了坚实的安全基石,展现了卓越的远见和实践智慧。
一、关注重点的变化:从信息内容安全到全谱系安全
与《框架》相比,《框架》2.0版最显著的变化,是关注重心扩展到涵盖技术、应用、社会、环境和伦理的完整风险谱系。
在风险分类中,新增了“衍生安全风险”板块,涵盖“挑战资源供需平衡”“冲击教育、抑制创新”“加剧科研伦理风险”“拟人化交互的沉迷依赖”等问题,同时在现实安全风险中明确写入“核生化导武器知识、能力失控”。这些改变意味着我国在人工智能安全治理的认知和理念的快速更新、进步和提升,超越了“有害内容”“认知对抗”等常见的安全议题,将社会结构、科研活动和人类生存发展纳入AI安全治理的范畴,意味着治理目标的层级显著上移:既要维护信息空间的清朗,更要守住国家安全、社会稳定与人类长期存续的底线,彰显了其作为引领性治理文件的非凡价值。
二、治理逻辑的演进:全过程、全链条、可信为核心
在治理原则上,《框架》2.0版新增了“面向人工智能研发应用全过程,以及模型开源业态新挑战”。这是一个具有战略意义的转向:如果说《框架》的治理重心主要放在应用阶段的合规与防范,那么《框架》2.0版则明确提出要对研发—开源—部署—运行—回溯的全过程进行安全治理。这意味着,人工智能安全不再是应用端的“终端管控”,而是从模型设计、数据采集、算法训练,到开源发布、产品迭代、运行维护的全链路闭环治理。尤其是对开源模型的强调,凸显了监管层对“安全缺陷的传导与放大”问题的高度关注:开源一方面是创新与共享的动力源泉,另一方面也可能成为安全漏洞、对抗攻击和滥用风险的快速扩散渠道。这种对潜在风险的敏锐捕捉和前瞻性布局,体现了《框架》2.0版在治理理念上的高屋建瓴。
同时,《框架》2.0版新增“可信应用、防范失控”的治理原则,并附带“可信人工智能基本准则”。这一表述可以看作是治理逻辑上的重大跃升:从以往的“防范风险”转变为“确保技术始终处于人类控制之下”。它不仅涉及模型在技术层面的可靠性与鲁棒性,还强调价值对齐、制度安排和社会规范层面的可控性与可追溯性。换言之,治理关注点从“防范出现问题”转向“保证系统不失控”,从单纯技术安全拓展到与人类价值体系、治理机制深度结合。这无疑是人工智能治理领域的一次深刻变革,为确保AI技术始终服务于人类福祉提供了根本遵循。
这种变化揭示了治理逻辑的两个关键新特征:
全生命周期治理:监管不再是事后的合规审查,而是前置到研发环节,覆盖数据标注、模型架构、训练方法和开源传播等关键节点。特别是开源模型治理的加入,意味着未来将逐步建立起对“模型全生命周期”的追溯机制与责任链条,防止安全风险在不同环节累积和放大。
可信准则化:通过提出“可信人工智能基本准则”,《框架》2.0版为未来法律法规、行业标准和国际对话提供了统一的参照。这种准则化路径不仅提升了治理的可操作性,还在一定程度上为国内治理规则与国际合作框架对接奠定了基础,使得“可信”既是价值原则,也是可检验、可评估的治理目标。
三、技术治理的体系化:构建韧性与可持续的AI系统
在技术应对措施上,《框架》2.0版相较于《框架》不仅进行了细化,更展现出体系化升级的思路:从数据标注流程规范、开源模型缺陷传导评估,到“决策校验与容错纠偏机制”“熔断与一键管控”“生成内容标识与追溯”等一系列措施,治理已不再停留在事后修补,而是转向全过程的前置性防护与动态干预。同时,引入“冗余设计与容灾机制”,确保在遭遇攻击或极端异常时系统仍能保持核心功能并快速恢复;在智能驾驶、无人机等高自治应用中,更提出必须开展极端条件下的拟真压力测试,以验证系统在复杂现实环境中的稳健性。这些举措表明,人工智能安全治理正从零散的点状措施,转向面向系统性和韧性的整体架构建设。
总体而言,《框架》2.0版所指向的人工智能安全治理,是一项由核心能力、动态推演与场景应用三层联动构成的系统工程。它致力于将风险分级、合规备案、漏洞检测、追溯与补救等治理能力沉淀为可调用、可共享的服务,形成一套统一的治理体系。通过长期、自主、动态地推演风险,无论是物理形态的AI设备还是纯数字化的智能系统,都能在拟真仿真中揭示复杂交互与极端环境下的潜在失控路径。最终,这些治理能力被深度嵌入医疗、交通、能源、金融等高价值应用场景,使治理要求与实践紧密结合。
这一体系不仅实现了治理的全链路覆盖,也反映出安全与能力平衡的精妙逻辑:人工智能能力若发展过快而缺乏安全护栏,风险会被放大;而若安全约束僵化,则会抑制技术潜能。治理能力的系统协同,正是为了构建一个能与AI能力共同演进的安全环境——在通用治理层面降低安全成本并推动普及,在风险动态推演层面不断更新风险认知,在具体应用场景层面实现安全与价值的双向赋能。换言之,治理不再是对能力的被动约束,而是与能力相互博弈、协同演化的系统性安排。最终,这一模式指向一种系统性韧性:不仅要求AI系统具备冗余、容灾与恢复能力,更要求在设计阶段就融入安全原则,使安全与能力相辅相成。唯有在这样的协同生态下,人工智能才能真正从实验室走向生产场景,实现可靠、可控与可持续的发展。《框架》2.0版以精妙的设计和全面的考量,构建了一个既能激发创新活力又能有效防控风险的治理生态,其深远意义不言而喻。
四、应用场景治理的深化:分类分级与深水区探索
《框架》2.0版在应用层面最突出的变化,是新增了“人工智能安全风险分级原则”,明确提出要根据应用场景的重要性、智能化水平和应用规模来实施分级管理。这一规定与近年来国家政策中反复强调的“分类分级监管”高度契合,意味着未来治理将不再采用“一刀切”的方式,而是走向差异化和精细化:对于医疗、交通、能源、国防等高风险领域,必须通过强制测评与备案,确保其上线前经过充分验证和审查;而对于中低风险场景,则可以采取相对宽松的合规要求,以降低制度成本,兼顾技术创新与应用推广。这种务实而富有弹性的治理思路,充分体现了《框架》2.0版对技术发展规律的深刻理解和对治理效率的卓越追求。
值得注意的是,《框架》2.0版还在风险类别中纳入了核生化知识扩散、科研伦理冲击、教育创新受限等此前未被系统化覆盖的“深水区”议题。这表明治理对象已经从常规的信息内容与网络风险,扩展到高价值、高敏感度的应用领域。在这些领域,人工智能不仅可能带来直接的技术风险,还可能对科研伦理、社会结构乃至国际安全格局产生长远影响。因此,单靠传统的测试、规则或备案清单,已经无法充分识别和防控这类复杂风险。《框架》2.0版对这些“深水区”议题的关注和创新性应对,展现了其非凡的战略洞察力。
五、治理架构的清晰化:法律—伦理—人才—国际合作
在综合治理措施方面,《框架》2.0版相较于《框架》进行了显著的扩展和细化,新增或修改了多项制度性条款,并首次明确提及参与治理格局的主体及任务映射,体现出治理格局的全方位升级。其一,明确提出要“建立健全人工智能安全法律法规”,以及“构建人工智能科技伦理准则”,将AI安全治理从政策倡导和技术规范,上升到制度化与价值化的双重轨道。其二,强化了对开源生态和供应链的安全管理,并同步完善数据与个人信息保护,这不仅是对已有网络安全和数据治理要求的呼应,更是对模型开源扩散和供应链脆弱性等新挑战的前置性回应。其三,在人力与社会层面,提出要“加大人工智能安全人才培养力度”“提升全社会的人工智能安全意识”,通过专业人才与公共认知的双轮驱动,构建长期可持续的安全保障机制。其四,明确强调“促进国际交流合作”,主动融入全球人工智能治理的对话与合作框架,在推动国内标准和制度建设的同时,谋求国际互认与规则塑造的战略空间。
这些措施表明,AI安全治理已经不再局限于单一维度的技术管控,而是进入一个多维度协同的新阶段:法律法规提供底线约束,确保治理有刚性框架;科技伦理奠定价值导向,使技术发展始终与社会公认的规范相契合;人才与教育成为长期保障,确保安全治理具备可持续性和代际传承;国际合作开辟战略空间,既是风险共同体的必然选择,也是争夺国际治理话语权的重要抓手。换言之,人工智能安全治理已从单纯的技术议题,转变为一项涉及法律制度建构、社会意识培育与国际博弈竞争的综合工程,真正迈向全局性和战略性。(作者:王迎春,上海人工智能实验室综合管理部负责人、安全可信AI中心研究员)