2025年9月,《人工智能安全治理框架》2.0版(以下简称《框架》2.0版)正式发布,这距离《人工智能安全治理框架》1.0版(以下简称《框架》)的发布仅一年有余。之所以快速迭代,是因为一年间人工智能技术出现了超预期的突破:例如,涌现出高性能推理模型,极大提升了解决复杂问题的能力;高效能轻量级模型的开源大幅降低了AI应用部署门槛,使得人工智能迅速向各行业领域渗透普及。与此同时,大模型应用形态从单一问答向嵌入业务流程的智能体演进,脑机接口等前沿技术日新月异,人机融合的智能时代不再遥不可及。但技术飞速发展的另一面,人工智能安全风险的形式、影响范围和认知也在同步演进。为应对AI快速发展带来的新风险、新挑战,在国家网信办指导下,有关部门和机构及时跟踪风险变化、调整风险分类、探索风险分级方法并动态更新防范措施,制定了《框架》2.0版。本文将从“提升”和“逻辑与意义”两个层面,对比解读新版框架的关键改进及其背后的深意。
一、《框架》2.0版相比《框架》的关键提升
《框架》2.0版在治理原则、风险分类、技术应对、治理机制、安全指引等方面都有重要升级。概括而言,相比《框架》,《框架》2.0版的改进主要体现在以下几个方面:
一是治理原则更加完善。《框架》确立了包容审慎、安全为先,风险导向、敏捷治理,技管结合、协同应对,开放合作、共治共享等原则。而《框架》2.0版在此基础上新增了“可信应用、防范失控”原则。这一新增原则强调构建涵盖技术防护、价值对齐、协同治理等层面的可信AI基本准则,确保人工智能技术演进是安全、可靠、可控的,严防出现威胁人类生存发展的失控风险,保证AI始终处于人类控制之下。这一提升表明治理理念上更加关注人工智能可信赖性以及对失控风险(如所谓“AI脱缰”情景)的前瞻防范。
二是安全风险分类更全面。《框架》将AI安全风险划分为技术自身的内生安全风险和应用层面的安全风险两大类,包括模型算法缺陷、数据安全,以及AI在网络、现实、认知、伦理等应用领域引发的风险。《框架》2.0版则在延续技术内生风险和技术应用安全风险的基础上,引入了“人工智能应用衍生安全风险”这一新类别。应用衍生安全风险侧重于人工智能大规模应用对社会和环境带来的次生影响,包括对劳动就业结构的冲击、资源能源消耗的挑战等社会环境风险,以及放大偏见歧视、冲击教育创新等衍生伦理风险。通过增加这一类别,《框架》2.0版进一步拓展了风险边界,将AI对宏观社会系统可能造成的系统性风险也纳入治理视野。
三是技术应对措施更丰富。新版框架强化了多项关键技术对策,以更有力地防范和化解AI安全风险。在模型算法层面,新增了对基础模型缺陷传导的重视,要求加强对基础模型及开源模型安全缺陷向下游传导的评估。在高风险应用场景下,《框架》2.0版提出建立“熔断”机制和“一键管控”措施,当AI系统引入高度自主的操作能力时,可以在极端情况下迅速介入紧急停机,防止失控造成损害。此外,针对生成式AI引发的信息内容安全问题,《框架》2.0版强调人工智能生成内容的溯源标识,完善对合成内容的显式/隐式标记和追溯机制,覆盖内容生产源头、传播路径和分发渠道,方便用户识别信息来源真伪。这些技术对策的强化,体现出《框架》2.0版对模型安全漏洞扩散、AI自主性风险以及生成内容可信度等问题的更高关注和更积极防护。
四是治理机制与工具更健全。《框架》2.0版在治理手段上新增了多项机制创新。其中一大亮点是风险分级原则的提出。新版框架在调整风险类型的同时,探索建立具有共识的安全风险分级方法论,从应用场景、智能化水平、应用规模等维度科学评估风险等级,并采取相应的差异化防范措施。这意味着治理者可以根据AI应用的不同场景和影响范围来实施分类分级管理,以做到高风险严管、低风险松绑,提升治理的精准性和有效性。同时,《框架》2.0版构建了人工智能安全测评体系,对模型算法、安全性能和具体场景进行分层次的评估测试。例如,模型层面的测评关注鲁棒性、可靠性、抗干扰性和决策透明度等内生安全能力;应用通用层面的测评评估常见应用的安全性;场景化测评则评估特定场景下AI系统满足安全要求的能力。此外,新版框架鼓励组织开展AI安全漏洞众测活动,汇聚各方力量发现潜在安全漏洞和风险。这些新增的治理工具为政府和行业提供了更加制度化、专业化的抓手,推动AI安全治理由原则倡议向可操作机制落地转化。
五是安全指引覆盖全生命周期。在指导各方安全实践方面,《框架》主要是按角色提供指引,例如针对模型算法研发者、AI服务提供者分别提出安全开发和运维要求(同时对重点领域的应用者和政府监管等也有所涉及)。《框架》2.0版则调整为按照人工智能系统研发生命周期划分指引,更全面地覆盖从研发、部署到运行管理的各阶段安全要求。新版框架设置了“三段式”的安全指引:6.1模型算法研发安全开发指引、6.2应用建设部署安全指引、6.3应用运行管理安全指引。例如,在研发环节强调提升算法可靠性、公平性和隐私保护等内生安全能力,在部署环节要求对软硬件工具进行安全检测和漏洞修补,在运行环节则强调完善应用安全管理和人工复核机制等。这种从“按主体”到“按生命周期”的转变,有助于确保安全要求贯穿AI系统的整个生命周期,避免安全治理出现断点,更符合AI产品开发到应用的实际流程。
二、提升背后的逻辑和动因
《框架》2.0版系列升级举措的背后,体现了我国AI安全治理认知边界的拓展和治理范式的转变。首先,在风险视域上,新版框架不再局限于列举已有风险,而是将治理重点拓展到潜在的极端风险和衍生风险领域。这一点从新增的“防范失控”原则及相应措施中可见一斑。文件明确要求确保AI始终在人类控制之下,严防出现威胁人类生存发展的失控风险。可以说,《框架》2.0版已将AI可能带来的存在性风险(如利用AI研发大规模杀伤性武器、AI演化出不可控行为等)纳入政策考量,并通过要求对核、生化等高风险领域的AI应用设定严格限制来加以应对。其次,在治理思路上,《框架》2.0版实现了由“罗列风险清单”向“提供系统方法论”的转变。如果说《框架》主要是在摸清AI安全风险底数,描绘风险版图;那么《框架》2.0版更进一步,引入了基于风险等级的治理方法论,强调根据风险评估结果采取分级分类、靶向施策的治理模式。例如,通过建立风险分级原则和全流程安全测评机制,新版框架为不同程度、不同类型的AI风险设计了差异化的干预措施。这种方法论上的升级,将治理框架从静态的风险目录,扩展为动态的风险管理体系,使治理更加科学、灵活、富有前瞻性。
从更宏观的视角来看,《框架》2.0版的演进是多重因素共同作用的结果,主要体现在政策、技术、开源生态和国际治理四个方面:一是政策层面,国家高度重视人工智能安全,继2023年提出《全球人工智能治理倡议》后,监管部门持续完善相关政策标准框架。在国家网信办指导下,《框架》和《框架》2.0版的制定正是为了落实这一倡议、促成各方在AI安全上的共识与协同行动。二是技术层面,如前文所述,过去一年AI技术的突破性进展带来了全新的安全挑战——更强大的推理能力和更复杂的自主代理让风险形式和不确定性同步增加。新技术的不断涌现要求治理框架及时更新,以覆盖新出现的风险点。三是开源生态层面,AI开源社区的蓬勃发展在降低AI应用门槛的同时也加剧了风险扩散。基础模型开源使得更多开发者能基于强大模型进行二次开发,但也可能出现模型缺陷迅速传播、模型滥用等问题。因此《框架》2.0版无论在风险评估还是治理措施中,都更加关注开源模型带来的安全隐患,并强化了开源生态的安全责任和规范。四是国际治理层面,当前全球范围对AI安全治理的关注度前所未有,各国和国际组织密集出台治理倡议和规则。中国在此领域主动参与并引领方向:通过《框架》2.0版进一步与国际接轨,既响应了国际社会对可信AI、AI for Good等共识性理念的呼应,也在生成内容标识、治理准则等具体措施上与国际最佳实践对标,为全球治理贡献“中国方案”。
三、《框架》2.0版的重大意义
综上所述,《框架》2.0版的出台,具有多方面的重大意义:
一是提高治理的可操作性。相比《框架》侧重原则倡议和风险梳理,《框架》2.0版提供了更加具体、可执行的措施和工具,方便政策制定者和从业机构落地实施。例如,风险分级分类机制的引入使监管可以“对症下药”,避免一刀切;安全测评体系和漏洞众测机制则为企业和科研机构提供了评估改进AI系统安全性的抓手。再如,引入熔断机制和一键管控等技术手段,赋予了AI系统在紧急情况下快速关停的“安全阀”。这些举措极大提升了框架的实践指导价值,使各相关方有章可循、有据可依,推动AI安全要求真正融入研发部署运维的全过程。
二是增强治理的国际接轨性。新版框架充分体现了对国际AI治理趋势的呼应和融入。一方面,《框架》2.0版呼应了全球范围内对于AI可信、安全、可控的共同关切,特别是通过附件形式提出了可信AI基本准则,宣示“以人为本、智能向善”的发展理念,并倡议各国共同防范AI失控风险,形成广泛国际共识。另一方面,《框架》2.0版在具体措施上与国际治理实践接轨,如强调AIGC内容的标识与溯源机制,与欧美针对深度合成媒体的监管要求一脉相承;又如倡导建立AI安全评测标准和漏洞报告机制,也类似于国际上对AI系统进行安全认证和红队测试的趋势。这些都展示出中国在参与全球AI治理时的开放姿态和合作意愿。通过对标国际高标准,《框架》2.0版有助于促进我国AI产业在安全合规方面赢得国际社会信任,为中国AI走出去奠定基础。
三是强化应对高风险AI的能力。值得注意的是,《框架》2.0版专门把防范重大失控风险提升到原则和行动层面,这使我国在应对高风险AI方面走在前列。框架要求对AI在军事、生化等高风险敏感领域的应用进行严格管理,防止AI被不法分子利用于极端用途;同时强调开发者要对模型进行定期测试研判,以发现潜在的技术失控风险苗头。这些举措表明我国治理框架已开始未雨绸缪地考虑“灾难性风险”,并提出具体预防对策。在技术层面,引入熔断和人工复核机制,要求关键决策有人类监督备份,实质上为未来可能出现的更高级AI提供了制度性的安全网。可以预见,随着《框架》2.0版的实施,我国将逐步建立起一套应对“黑天鹅”级别AI风险的能力体系,确保无论AI技术如何演进,都能将其风险控制在可承受范围内。
《框架》2.0版的发布,标志着我国AI安全治理进入了系统化深化的新阶段。如果说《框架》是奠定基础、提出愿景,那么《框架》2.0版则是在实践中摸索完善后的全面升级,它既结合了过去一年的经验教训,也融汇了最新的技术发展和治理理念。从治理原则的丰富,到风险分类的扩展;从技术措施的细化,到治理机制的创新,再到指引体系的重构,无不体现出治理者趋利避害、与时俱进的智慧。对于政策制定者而言,新版框架提供了更加明确的监管思路和工具;对于行业从业者和研发机构而言,它提出了更高的安全标准和操作指南。在全球AI竞争与合作并存的当下,《框架》2.0版不仅有助于保障国内人工智能健康发展,也向世界传递出中国维护AI安全、推动AI造福人类的坚定决心。展望未来,随着《框架》2.0版的贯彻落实,我们有理由期待一个安全可控又充满活力的人工智能时代加速到来。(作者:洪延青,北京理工大学教授)