凌晨两点,模型发布群里还亮着。研发负责人发来最后一版评测表:幻觉率下降了,延迟可接受,灰度用户反馈不错。按照过去的节奏,这已经足够进入发布窗口。产品经理准备写公告,市场同学等着截图,值班工程师只想尽快把开关推到 10% 流量。 但合规负责人把发布卡住了。他问了三个问题:这次模型的训练数据摘要有没有更新?红队发现的高危能力有没有复测证据?如果欧盟用户投诉它造成损害,我们能不能在日志里还原当时的模型版本、策略命中和处置链路? 会议安静了几秒。大家突然意识到,问题已经不是“这个模型聪不聪明”,而是“这个模型有没有资格上线”。过去很多团队把 AI 治理理解成原则、价值观、伦理声明,贴在官网上很体面,却很少影响发版节奏。现在情况变了:监管、标准、客户审计和政府评测正在把这些词翻译成工程约束。约束的形态不是一篇宣言,而是模型卡、评测报告、训练数据摘要、日志字段、负责人签字、灰度门禁和事故上报流程。
图:作者制图,信息来源:EU AI Act、European Commission GPAI 页面、NIST AI RMF、NIST AI 600-1、AI Safety Institute 公开材料。 真正改变企业行为的,不是某一个国家突然拥有了万能监管工具,而是多个体系在同一方向上收敛。欧盟用 AI Act 把“风险分级”写进法律;对高风险 AI 系统,它要求技术文档、日志能力、透明度、人类监督、准确性和网络安全。对通用目的 AI 模型,欧盟又把透明度、版权合规、训练数据摘要和系统性风险管理推到模型提供商面前。NIST 的 AI Risk Management Framework 虽然是自愿框架,但它把治理拆成 Govern、Map、Measure、Manage 四个可操作功能,让企业知道风险管理不是一场公关活动,而是一套组织流程。NIST AI 600-1 又把生成式 AI 的内容来源、滥用、隐私、安全、偏见和信息完整性等问题进一步具体化。 这就是“软约束变硬”的第一层原因:外部语言变成内部接口。过去老板说“我们要负责任地使用 AI”,团队很难知道下一步做什么。现在客户会问你有没有 NIST AI RMF 映射;监管会问你是不是高风险系统;采购方会问模型卡、红队报告、数据处理说明和审计日志;安全团队会问提示注入、数据泄露、越权调用有没有测试。责任不再停在价值观层面,而是落到研发系统里的字段、流程和证据。
图:作者制图,信息来源:NIST AI RMF、NIST AI 600-1、EU AI Act 高风险系统要求和 GPAI 义务整理。 EU AI Act 的影响尤其明显。它不是简单说“AI 要安全”,而是按风险分层管理:不可接受风险被禁止,高风险系统要满足更完整的合规要求,特定透明度场景要告知用户,通用目的模型则承担模型层面的透明度和安全责任。对企业来说,这会改变模型上线的顺序。以前的发布会从“模型能力”开始:基准分数、效果提升、成本下降。现在发布必须先回答“适用范围”:这个系统是否进入欧盟市场?是否属于高风险用途?底层模型是否属于通用目的模型?是否可能被认定为具有系统性风险?不同答案会触发不同文档、评估、监测和报告要求。 这听起来像法务工作,但最终会落到工程。比如训练数据摘要不是法务凭空写出来的,它需要数据管线能保留来源类别、清洗策略、过滤规则和版本记录。技术文档不是上线前临时拼 PPT,它需要模型版本、评测任务、限制条件、适用场景、依赖组件和风险缓解措施能从研发流程里提取。日志要求也不是“服务器有日志”这么简单,高风险系统需要能够在生命周期内自动记录相关事件,以便追踪系统运行情况。换句话说,合规不是发布后的补丁,而会倒逼研发平台从一开始就保存证据。 NIST 的价值在于把这件事说成企业听得懂的流程。AI RMF 不直接替代法律,却提供了一个管理语言:Govern 负责角色、责任、政策和文化;Map 负责理解系统语境、利益相关方和影响;Measure 负责测量风险、性能和不确定性;Manage 负责优先级、响应和持续改进。生成式 AI 出现后,NIST AI 600-1 又提醒企业:风险不只来自模型答错题,也来自虚假内容规模化传播、敏感信息泄露、提示注入、自动化网络攻击、版权争议、数据污染和人类过度信任。它把“AI 风险”从抽象名词拆成可被测试、记录、复盘的对象。 AI Safety Institute 这类机构则把另一个信号推到台前:先进模型不是只由公司自己说安全。英国 AI Safety Institute 和美国 NIST 体系下的相关机构都把模型评测、红队、国家安全和公共安全风险作为重点。即便很多合作目前仍是自愿或特定范围内的评测,方向已经很清楚:前沿模型上线前接受外部或半外部测试,会越来越像安全关键行业里的惯例。企业如果还把评测当成内部 QA 的附属品,就会跟不上客户、监管和公共舆论对证据的要求。
图:作者制图,信息来源:EU AI Act GPAI 义务、AI Act 高风险系统条款、NIST AI RMF、NIST AI 600-1、OECD AI incident reporting framework。 这会如何改变模型上线方式?第一,模型发布会从“结果导向”变成“证据导向”。效果提升仍然重要,但不是唯一门票。一个企业级模型要上线,往往需要同时准备能力评测、安全评测、偏见与公平性测试、隐私与数据泄露测试、越权调用测试、红队记录、已知限制、残余风险和缓解措施。没有证据链,就算指标漂亮,也可能被卡在发布门禁之外。 第二,模型版本管理会变得更严。传统软件发布已经有版本号、变更记录和回滚机制,但模型的变化更隐蔽:同一个接口背后可能换了基座模型、提示词、检索库、工具权限、过滤策略或后处理规则。AI 治理要求企业回答“这次变化到底改变了什么风险”。所以模型注册表、评测集、策略配置、训练数据摘要、推理参数和用户可见行为需要被绑定在一起。否则事故发生后,团队只能说“当时大概是那个版本”,这在审计语境里几乎等于没有答案。 第三,发布门禁会从工程经理扩展到跨职能责任。过去只要研发和产品点头,模型就能灰度。现在安全、法务、隐私、合规、业务负责人甚至外部评测方都可能进入发布流程。这里的重点不是增加会议,而是让不同责任有明确证据输入:安全看攻击面,隐私看数据流,法务看适用法规和版权,业务看用户影响,工程看回滚和监控。最终上线不再是“大家感觉没问题”,而是“有人基于证据接受残余风险”。 第四,运行期监控会成为合规的一部分。AI 系统不是上线后就稳定的普通功能。用户会用新的方式诱导它,外部知识会变化,检索源会污染,工具权限会扩大,模型供应商也会更新能力。EU AI Act 对高风险系统强调上市后监测和严重事故上报,OECD 也在推动更一致的 AI 事件报告框架。企业因此需要把生产环境里的异常输出、用户投诉、策略拦截、越权尝试、性能漂移和人工接管都纳入治理视野。只有发布前评测,没有运行期证据,治理就是半截工程。 第五,供应链会被重新审视。很多企业并不训练大模型,而是调用外部模型、接入开源模型、使用 RAG 和 Agent 框架,再把它包装成业务系统。监管和客户不会因为你“只是调用 API”就自动免除责任。你仍然要知道模型来源、用途边界、数据是否出境、日志如何保存、供应商如何处理事故、系统如何降级。GPAI 义务直接影响模型提供商,但下游部署者也会通过采购、合同和审计把要求传导回来。未来企业买模型,看的不只是价格和效果,还会看供应商能不能提供合规材料、评测结果和事故协作机制。 还有一个变化更隐蔽:模型上线会被纳入企业原有的风险管理体系,而不是单独放在 AI 小组里自转。很多公司已经有隐私影响评估、安全评审、供应商准入、变更管理、内控审计和重大事故响应。AI 治理真正落地时,不会重新发明一套完全独立的流程,而是把模型风险接到这些老系统上。比如一个客服 Agent 如果能查询订单、发起退款、修改用户资料,它就不只是聊天机器人,而是一个带权限的业务执行者。它的上线评审应该同时进入权限治理、数据安全、业务连续性和客户投诉处理流程。否则 AI 团队说自己做了治理,业务系统却没有任何痕迹,事故发生时仍然查不到责任链。 这也是为什么“模型卡”会变成企业协作工具。外部看,模型卡像一份说明书;内部看,它其实是把研发、产品、安全、法务和业务拉到同一张纸上。研发写模型能力和评测,产品写使用场景和用户边界,安全写攻击面和缓解措施,法务写合规前提,业务写不可接受的失败后果。好的模型卡不会保证模型永远安全,但它能防止最常见的组织性失误:每个部门只知道自己那一段,没人知道整体风险长什么样。 从管理层角度看,治理工程化还有一个现实收益:它让“能不能上线”从拍脑袋变成可讨论的风险接受。以前模型有问题时,会议往往陷入两种极端:研发说指标已经很好,合规说风险不能接受。双方都对,却没有共同刻度。引入风险分级、固定评测集、红队发现、残余风险说明和负责人签字后,讨论会具体很多:哪些风险已经降低,哪些风险仍然存在,哪些场景必须禁止,哪些客户只能灰度,哪些指标一旦恶化就自动回滚。治理不是替业务做决定,而是让业务知道自己到底在接受什么。 最容易被低估的成本,是补历史账。很多团队已经把大模型接进了内部客服、销售助手、知识库、代码生成和数据分析流程,但没有统一模型注册,没有清晰权限边界,没有固定评测,也没有跨系统日志。等客户审计或监管要求来了,再回头整理会非常痛苦:模型换过几次、提示词改过几轮、哪些用户受影响、哪些数据进入过上下文,很可能已经说不清。与其等规则完全落地后补材料,不如现在就把最小证据链做起来。它不需要一开始很豪华,但要从第一天就能回答版本、用途、风险、评测、日志和责任六个问题。 另一个经常被忽视的点,是“上线”本身会被拆细。过去上线就是把模型能力开放给用户;未来上线会分成内部试用、受控沙盒、低风险灰度、高风险场景排除、特定客户试点和正式发布。每一层都有不同证据要求。内部试用可以容忍更多不稳定,但要限制数据和权限;沙盒可以验证工具调用,但不能接触真实资金和关键决策;灰度要有实时监控和快速回滚;正式发布则要准备客户说明、事故响应和合规材料。这样做看似麻烦,其实能让创新和控制同时存在。没有分层的公司,只能在“完全不上线”和“一把推出去”之间摇摆。 对技术负责人来说,最实用的判断标准很简单:如果一个模型能力明天造成了错误决策、数据泄露或越权操作,你能不能在一天内拿出完整链路?能拿出来,说明治理已经进入工程;拿不出来,说明治理还停在口号。AI Act、GPAI、NIST 和 AI Safety Institute 的共同影响,就是把这个问题提前到发布前。它们迫使企业在模型还没出事时,就把证据、责任和回滚设计好。 这也是 AI 平台团队的新价值:不只是接模型、降成本、提速度,还要把风险证据自动化。谁能把评测、日志、审批和事故响应做成默认能力,谁就能让业务更放心地使用 AI,而不是每次上线都重新打一场仗。 这也是为什么 AI 治理会让产品节奏变慢,但不一定让创新停下来。成熟的软件工程早就接受了测试、代码审查、灰度发布、监控告警和事故复盘。它们一开始也被认为拖慢速度,后来却成为规模化交付的基础设施。AI 治理正在经历同样的阶段:从“额外负担”变成“上线能力”。当客户问你能不能解释一次错误推荐,当监管问你能不能还原一次高风险决策,当内部审计问你谁批准了某个模型版本,真正有竞争力的团队不是临时找材料,而是打开系统就能导出证据。 对创业公司来说,这并不意味着一开始就照搬大厂的合规部门。更现实的做法是把治理嵌进最小工程闭环:建立模型与提示词版本记录;为关键场景维护固定评测集;上线前写清用途、限制和禁止场景;保留调用日志和策略命中记录;对高风险能力做红队测试;给灰度和回滚设置明确门槛;把用户投诉和异常输出进入缺陷系统。等规模变大,再逐步补齐模型卡、供应商审计、独立评测和正式事故报告流程。 2026 年的 AI 上线方式会越来越像这样:产品想发布一个新能力,不再只提交需求文档和效果截图,而是提交一组证据包。证据包里有模型版本、评测结果、红队发现、风险缓解、数据说明、日志方案、监控指标、事故响应人和发布审批。审批通过后,系统进入灰度;灰度期间监控异常;出现严重问题时能迅速回滚;复盘结果又回到下一轮评测和门禁。 这不是“AI 伦理终于被重视”的温和故事,而是 AI 进入基础设施后必须付出的工程代价。模型越强,越不能只靠信任上线;用户越多,越不能只靠声明负责;场景越关键,越不能只靠事后解释。AI 治理正在从口号变成产品、流程、日志、责任和发布门禁。未来很多模型不是输在参数量,而是输在没有证据证明自己可以被安全地交付。
核心来源
European Commission, EU rules on general-purpose AI models start to apply, https://digital-strategy.ec.europa.eu/en/news/eu-rules-general-purpose-ai-models-start-apply-bringing-more-transparency-safety-and-accountability European Commission, Guidelines for providers of general-purpose AI models, https://digital-strategy.ec.europa.eu/en/policies/guidelines-gpai-providers EUR-Lex, Regulation (EU) 2024/1689 Artificial Intelligence Act, https://eur-lex.europa.eu/eli/reg/2024/1689/oj NIST, Artificial Intelligence Risk Management Framework AI RMF 1.0, https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10 NIST, AI Risk Management Framework resources and NIST AI 600-1, https://www.nist.gov/itl/ai-risk-management-framework/ai-risk-management-framework-resources GOV.UK, AI Safety Institute approach to evaluations, https://www.gov.uk/government/publications/ai-safety-institute-approach-to-evaluations OECD, Towards a common reporting framework for AI incidents, https://www.oecd.org/en/publications/towards-a-common-reporting-framework-for-ai-incidents_f326d4ac-en.html
夜雨聆风