【公益译文】2026年国际AI安全报告(四)

往期推荐：2026年国际AI安全报告（三）

风险管理

开发人员、研究人员和决策者正致力于开发和实施适用于通用AI的风险管理实践，但仍处于起步阶段。AI研发企业会测试模型是否存在危险功能，训练模型拒绝有害请求，通过监控部署情况检测和应对攻击者对AI的恶意利用。但没有任何安全措施能达到绝对可靠，所有技术措施都面临着多种问题和挑战。评估依据不足是问题之一，及时且可靠地生成AI能力和影响相关的依据十分困难，部署前的评估往往无法预测AI在实际环境中的行为。信息不对称问题指研究人员和决策者往往缺少AI开发过程和部署影响的相关信息。

这些限制意味着组织通常采用纵深防御（defence-in-depth）的方式管理AI风险，实施多层安全措施。组织风险管理实践有助于系统地识别、评估和降低风险发生的可能性和严重程度，而技术安全措施则在模型、系统和生态系统层面发挥作用。开放权重模型给这些技术措施带来了特殊的挑战，因为模型复制、修改和在受控环境之外的部署会使攻击者的恶意利用行为更难预防和追踪。社会韧性建设措施有助于广泛采用系统抵御、缓解、恢复措施并适应通用AI带来的冲击和危害。

通用AI在各方面都取得了进展，更加可靠、安全和值得信赖，但依然存在局限性，而且难以预测现有的保障措施能否抵御功能更强大的系统带来的风险，以及尚未考虑到的未知因素可能带来的风险。这会造成依据不足问题，决策者在对通用AI的能力和风险尚不明确的情况下，很难作出选择，但等待更多依据的出现可能会使风险加剧。

3.1.技术和制度挑战

AI给决策者带来了各种制度和技术挑战，下文主要讨论10个方面的挑战，大致可分为4类：科学认知差距、信息不对称、市场失灵、制度构建和协调挑战（见图3.1）。

图3.1：AI风险管理面临的四类挑战：科学认知差距、信息不对称、市场调节失灵、制度构建和协调挑战。来源：《2026 年国际AI安全报告》。

2025年以来，有些问题有所缓解，而有些则有所加剧。开放权重模型方面取得的进展可能有助于更多研究人员研究高性能模型。有些国家或地区制定了透明度和事件报告框架，可能会为决策者提供更多相关信息，但措施方面的进展在近期才出现，其在实践中的适用性暂不确定。

技术的复杂性、发展速度以及部署场景多样化等特征使决策者很难评估和管理这些问题。其中有些挑战源于AI的特性导致了诸多问题，例如模型行为解释或能力评估困难，其他挑战则源于社会结构和激励措施如何影响政府、企业和研究人员收集并基于风险采取行动的能力。科学认知差距和信息不对称造成了依据不足的问题。在掌握通用AI的能力和风险的明确依据之前，决策者可能面临艰难的决策。在掌握的信息不完整的情况下采取行动，可能会导致实施的干预措施无效甚至存在危害。但如果原地等待最终结果的出现，可能使社会受到诸多风险的影响。市场调节失灵和制度构建方面的挑战加剧了这一问题，造成激励机制错位和协调困难，这些问题会持续存在。

第1类：科学认知差距

研究人员目前无法可靠地训练AI使其按预期目标运行，也无法解释AI为何产生特定输出，现有的评估方法无法在部署前十分有效地识别危险功能。

训练目标仅能反映部分预期目标

通用AI模型的复杂训练过程使得开发人员难以预测模型的能力和行为，原因有以下几点。首先，训练中使用的数学问题目标通常只捕捉到开发人员的部分意图。例如，模型可能被优化为预测序列中的下一个单词，而实际目标是创建用户友好型产品，用于高效地提供准确且有用的信息，这两个目标仅部分契合。其次，开发人员在初始训练后添加的以安全为中心的缓解措施可能无法推广到所有输入。例如，模型使用训练数据中不常见的语言进行提示时，有时可能会绕过安全措施。

这些问题可能带来严重后果。AI模型在真实性、安全性和稳健性方面始终存在缺陷，在确保安全措施在不同环境下保持有效方面仍存在根本性问题，尚无法解决。研究人员还证明，模型可以被训练生成虚假信息来完成任务，即使采取了安全缓解措施，这种行为仍然存在，而且模型在部署环境中的能力表现可能与训练时不同。实验环境中观察到的行为能力可能无法推广到现实中的部署场景，这凸显了确保模型按预期运行的核心技术挑战。

无法充分解释AI输出原理

当前的技术无法充分解释AI模型如何产生输出，研究人员尚不清楚特定输入如何产生特定输出。通用AI模型涉及数十亿甚至数万亿个参数，这些参数在大规模数据集上进行调整，并且以高度分布式的方式在神经元之间表示信息，使得在技术上难以分辨模型的哪些部分负责特定行为，这通常被称为AI的“黑箱”特性。用于解释模型内部工作原理的“可解释性”技术需要做出重大的简化假设，使用不当可能会产生误导。

可解释性的缺失给AI稳健性、安全性和可靠性保障带来了根本性挑战。成熟的安全行业中，系统通常必须达到可量化的可靠性阈值，与此不同的是，计算机领域的科学家目前无法提供可靠的、可量化的保证，确保AI不会实施某些有害行为，或确保AI始终能够完成任务或输出正确答案。这使得制定监督措施和安全测试标准以及在AI产生危害时确定责任的问题更加困难。研究人员正致力于可解释性技术的研究，同时开发补充验证和监控框架，如果取得新进展，有助于人们进一步掌握AI的原理，采取更可靠的风险预防措施。

部署前评估的能力与实际应用中的能力存在差距

当前的方法对AI模型的能力和行为倾向的评估并不完全可靠。研究人员正在制定的AI能力和现实影响的衡量指标仍不成熟且分散，针对AI智能体设计的评估方法也面临类似的局限性。这使得以安全为中心的评估的核心目标难以实现，难以充分衡量、监控和缓解风险。评估和测试方法主要存在3个局限性。

首先，许多基准测试无法准确衡量和评估AI的具体能力。例如，研究人员通常使用多项选择题形式，模型可以使用捷径而非更稳健的方法生成正确答案，导致性能评分虚高。对基准质量的评估可能十分困难，因为评估实践本身可能不透明、不一致，并且依赖于不透明的数据集、临时程序或未经验证的指标。此外，评估模型的某些风险（特别是危险能力）可能需要提示它们参与危险活动，例如武器开发中的某些任务。与其他场景相比，模型的性能在评估测试场景中可能会下降，这种情况被称为“沙袋效应”，研究人员在实验中发现了这类情况。

其次，仅凭基准测试无法可靠地预测AI在现实场景中的行为。要了解AI在实践中带来的风险，需要考察不同用户如何与其交互以及由此产生的后果等实际部署情况。例如，最近一项研究表明，通过微调使某个语言模型看似热情或富有同理心，其犯错的可能性增加了10-30个百分点，该模型可能传播阴谋论、验证错误观点以及提供不安全的医疗建议。然而，这些易出错的AI模型在基准测试中的分数与更可靠的模型的分数相近，这意味着某些危害结果只有在实际部署时才会出现。另一项在医疗环境中进行的研究发现，基准测试中性能优异的模型在超过30万次的真实交互中，针对临床问题输出了不安全或模糊的结果。

最后，部署前的测试无法预测未来可能出现的所有异常模式。潜在用例及其相应风险类型多样，难以通过测试预测所有潜在的异常模式。研究人员证明，如使用过去时态等对有害提示语进行简单改写的方法可以使模型绕过安全微调技术。

第2类：信息不对称

决策者面临的第2类挑战是，AI开发人员拥有AI相关的关键信息，而外部相关者缺少这部分信息。开发人员知道他们使用了哪些数据进行训练、开发过程中出现了哪些安全问题以及模型在内部评估中的能力表现如何。然而，其中大部分信息并未公开。这种信息不对称意味着决策者有时缺少某些类型的数据和依据，从而无法及时作出决策。

AI开发人员通常不公开训练数据相关信息

公司通常会限制开发人员分享用于训练通用AI模型的数据的用途、获取途径和处理方法等相关信息，这种做法的原因包括保护知识产权、保持竞争优势、提高AI模型的安全性等。但不公开信息可能掩盖某些做法，如使用受版权保护或未经授权的数据进行训练。用于训练AI模型的数据特征对其行为影响巨大，因此这些数据的相关信息对于风险管理工作至关重要。例如，最近的研究表明，过滤训练数据可以防止模型发展出自主认知等危险能力。

开发成本高、资源和权限不对等，阻碍外部研究和效仿

开发高级的通用AI模型需要大量的数据、算力和人才资源，耗费数亿美元（见图3.2）。自2020年以来，开发成本每年增长约3.5倍，如果继续以这种速度增长，到2027年，规模最大的模型训练耗资将超过10亿美元。巨大的资源需求使得独立的科学复制成本过高，限制了独立研究人员审查特定技术决策的能力。

领先的AI企业能够使用系统功能更强大的内部AI模型，进一步扩大了开发人员内部可访问的系统与外部研究人员和公众可访问的系统之间的差距。尽管最近开发人员促进了对模型训练的开放式科学探究的进程，但独立研究人员和小型企业通常缺少研究训练方法所需的算力、资金和基础设施资源，所以无法达到AI企业内部研究人员研发的水平。

图3.2：AI模型预计训练成本，2012-2025年。来源：Epoch AI，2025 年。

第3类：市场失灵

市场动态可能导致公司激励与社会最优的AI风险缓解水平之间出现不匹配的情况。当危害分散、延迟或难以追溯根源时，私人机构投资安全措施的动力就会降低。AI的许多潜在危害会影响个人、组织或社区等第三方。因此，公司可能没有足够的动力投资于研究和减少危害的措施。例如，如果AI能够生成未经同意的私密图像，受害者将承担额外的心理压力和社会成本。这代表了一种典型的市场失灵的情况，开发产品的成本并不代表全部社会成本。

竞争加剧发展速度与安全性保障之间的权衡问题

相对于更重视研发速度的公司，在风险缓解方面投入巨资的公司在竞争中可能处于劣势。例如，为了进行更多测试而推迟模型发布，可能会导致市场份额被其他竞争对手抢占。有些领先的AI开发企业自愿采取了常见的安全措施，但目前没有足够的证据证明这些措施长期有效。这种竞争情况不仅限于单个公司之间，其他国家也在快速开发AI模型，各国政府将AI研发视为具有经济和战略意义的事项。在此背景下，各国可能面临在提升国内AI能力和实施AI技术之间进行权衡取舍的问题。安全措施可能会减缓发展，尤其是在他们认为其他国家没有采取类似措施的情况下。

现有的责任框架是否适用于通用AI模型

现有的责任框架能否充分应对AI可能造成的损害仍存在不确定性。AI企业受侵权法、刑法和合同法等现有法律框架的约束，受害者可以就损害寻求赔偿。有专家认为，责任制度将在确保因使用或与AI交互而受到损害的受害者获得基本保护方面发挥关键作用。然而，AI可能给责任框架带来特殊的挑战，损害可能难以追溯到具体的设计选择，尤其是在风险管理流程的完整信息尚未公开的情况下，而且责任分散在AI开发人员、应用程序构建人员和部署人员及其用户之间，无法明确具体责任归属。对AI智能体部署场景的人工监督减弱，导致这种不确定性日益加剧。这些挑战在实践中的具体影响尚不清楚，但随着AI部署范围的扩大，各企业或组织需要持续关注。

第4类：制度构建和协调

AI的发展速度使政府、研究和学术机构难以有效测试并及时发现AI风险相关的依据，难以建立有效的应对措施。有些机构难以拥有足够的技术能力和资源参与AI的研发，还有些机构可能尚未充分认识到通用AI发展的规模和对社会的影响。此外，少数基础模型被不同行业和不同国家广泛应用，引发了协同问题和整体依存关系问题。

AI发展速度快于传统治理周期

AI性能每月都在显著提升，而重大立法通常需要数年时间才能完成起草、讨论和实施。这意味着，在政策制定过程中，AI格局可能会发生变化，更加难以制定能够应对新出现的风险并适应未来变化的政策。例如，当前有些方法使用基于训练计算量的阈值来确定风险管理要求。然而，模型的推理时间持续缩短可能会对此类阈值的有效性造成挑战，因为开发人员可以通过在推理而非训练期间使用更多算力来提高模型性能。

过度依赖少数几种模型造成单点故障

在众多行业和用例中部署数量有限的通用AI模型，会在整个AI生态系统中造成共享问题。目前，医疗、金融、教育等领域应用的AI模型主要由美国和中国开发（见图3.3），累计影响数十亿用户。当同一模型支持多种应用时，模型中的异常会影响所有依赖于它的应用。因此，单个漏洞可以导致多个领域应用的模型同时出现故障并造成损害。即使是表面上独立的模型，也可能由于模型趋同而出现相同的漏洞，因为独立开发的系统处理信息的方式相似。

图 3.3：2024年各国开发的模型数量。大多数流行的AI模型来自美国（64.5%），其次来自中国（24.2%）。世界其他地区仅占12.3%。流行模型指被AI研究机构 Epoch认定符合以下任一标准的模型：最高级的基准性能；引用次数超过1000次；具有历史意义；每月活跃用户超过100万；培训成本超过100万美元。来源：Maslej等人，2025。

跨部门部署使得开发人员、监管机构和决策者难以掌握和监控全部的AI治理问题。部署后难以解决实际出现的问题，会导致运营中断，而且当前部署后措施的有效性十分有限。

跨境部署导致AI的治理问题更加复杂

各国都面临AI治理方面的挑战。在某个国家或地区开发的AI模型经常被部署到其他国家或地区，除了开发或训练AI模型的国家以外，其他部署了AI模型的国家也可能受到损害。如果国际上没有有效的协调措施，各国将更难应对跨境外部性、监管套利（即企业为了规避更严格的规则而进行迁移）、各国治理能力不均以及互操作性等方面的挑战（即不兼容的国家标准导致市场分裂或降低安全措施的有效性）。

同时，国际协调也会产生成本，限制国家主权，减少监管实验，可能导致具有不同优先级标准和价值观的国家之间进行旷日持久的谈判，还可能降低各国根据自身特定的文化、经济和制度背景调整框架所需的治理灵活性。这意味着确定是否需要国际协调以及在何处需要国际协调，以及国际协调应采取何种形式，是一个持续的挑战。

2025年以来，中国、欧盟和美国等多个国家或地区呼吁并开始实施举报人保护和事件报告机制等措施。加速依据产生，改进风险管理。措施包括安全评估和透明度披露，如发布安全协议和模型卡片，产生了更多政府和公众的能力和风险相关的依据，可能提高透明度和问责制。有些方面的挑战略有缓解。虽然前沿AI训练的总体成本持续上升，但开放模型的最新进展早期分布式和去中心化训练实验可能会扩大科学获取途径。另一方面，AI在各领域的更广泛应用扩大了可能出现的故障问题。

文章相关信息

发布机构：英国科学、创新与技术部（DSIT）

发布日期：2026年2月

原文链接：https://internationalaisafetyreport.org/publication/international-ai-safety-report-2026

免责声明

该文章原文版权归原作者所有。文章内容仅代表原作者个人观点。本译文仅以分享先进网络安全理念为目的，为业内人士提供参考，促进思考与交流，不作任何商用。如有侵权事宜沟通，请联系littlebee@nsfocus.com邮箱。

小蜜蜂翻译组公益译文项目，旨在分享国外先进网络安全理念、规划、框架、技术标准与实践，将网络安全战略性文档翻译为中文，为网络安全从业人员提供参考，促进国内安全组织在相关方面的思考和交流。