数学家 Timothy Gowers 上周把 ChatGPT 5.5 Pro 丢进一个组合数学的开放问题集。十七分钟后,模型给出一个构造,证明了 Nathanson 提出的一个上界可以被改进到二次方——这是 PhD 级别的原创工作。Gowers 花了几天验证,结论是对的。
同一天,微软研究院放出 DELEGATE-52 的测试结果:十九个主流大模型在模拟真实工作流中,平均腐蚀了 25% 的文档内容。不是明显的错误,是稀疏但致命的静默篡改——代码里少一个边界条件,合同里改一个数字,乐谱里移一个音符。你只会觉得"有点不对劲",直到出事。
这两件事发生在同一周,但很少有人把它们放在一起看。前者是能力的奇迹,后者是信任的崩塌。合起来读,才能看到一个完整的信号:AI 没有消除信任成本,它只是把信任从"人对人"搬到了"人对机器对人"——链条更短,每一环都更黑箱。
一
Gowers 的文章标题很克制:"A recent experience with ChatGPT 5.5 Pro"。但内行读得出那句没有写出来的话:以前数学家花几个月想的问题,现在模型十七分钟给出一个构造,而且是对的。
他提到了一个更深层的变化。组合数学里有很多"新问题集"论文——作者提出十几个相关问题,供研究生练手。这些问题的价值在于"官方开放、难度适中、解出来有成就感"。但现在 Gowers 说,"the bar has just been raised"。不是人的能力提升了,是问题的定义变了:一个问题要有价值,必须难到 LLM 解不出。
这是自指。人用 AI 扩展自己的能力边界,但能力的衡量标准被 AI 重新设定了。就像跑步机上的人越跑越快,但跑步机也在加速。你以为自己在进步,其实只是在维持相对位置。
更隐蔽的是"腐蚀"问题。DELEGATE-52 测试了 52 个专业领域,从代码到晶体学到音乐记谱。结果不是模型"不会",而是模型"会,但会悄悄改错"。长文档、多轮交互、有干扰文件时,错误率上升。Agentic 工具调用没有改善这个问题——给了模型更多工具,它有了更多方式把事情搞砸。
这意味着什么?意味着"委托"这个行为的语义变了。以前你委托一个人,你知道他在做什么,你能判断他的判断。现在你委托一个模型,它做了 75% 的正确工作,但把 25% 的雷埋在你看不见的地方。你甚至不知道哪些是对的,哪些是错的——因为验证本身需要专业能力,而专业能力正是你委托出去的原因。
二
能力爆发和信任腐蚀同时发生,市场不会坐视不管。它会寻找新的"确权"机制——谁来担保这个输出是可靠的?
Google 给出了一个答案,而且三年前就试过。
2023 年 6 月,Google 工程师 Yoav Weiss 向 Chromium 提交了一个叫"Web Environment Integrity"的提案。机制很简单:浏览器请求设备硬件签一份加密证明,证实浏览器未被修改、运行在 Google 认证的硬件上。网站验证签名,决定是否放行。Mozilla 三天后发表正式立场:"works against users' interests","creates a gated internet controlled by OS and device vendors"。EFF 称之为"Chrome's Plan to DRM the Web"。Google 三周后撤回。
三年后,同一个机制以"Google Cloud Fraud Defense"的名字回来了。这次包装成 reCAPTCHA 的"下一代进化"——用户遇到挑战时扫一个二维码,用手机证明自己是人。支持文档写得很清楚:需要"modern Android device with Google Play Services installed, or modern iPhone/iPad"。
De-Googled Android 用户——运行 GrapheneOS 或任何剥离了 Google 服务的系统——自动失败。Google 没有说这是安全需求,它说的是"证明你是人需要运行我们的软件"。iOS 用户不需要装 Google 应用就能通过。只有拒绝 Google 生态的 Android 用户被锁在外面。
这不是防止欺诈。这是在重新定义"人"的边界——不是生物学意义上的人,而是"被认证的人"。认证权从社会机构(身份证、签名、信用记录)转移到了硬件厂商。Google 不是在验证你是不是人,它在验证你是不是它定义的那种用户。
三
设备认证是一种确权操作——给"可信输出"划定边界。但确权的前提是识别:你得先知道你要保护什么,才能划定边界。
欧盟在这个环节犯了识别错误。
欧洲议会研究服务局(EPRS)上周发布报告,称 VPN 是"需要关闭的漏洞"——因为未成年人用 VPN 绕过年龄验证系统。英国实施强制年龄验证后,VPN 应用登顶下载榜。EPRS 的结论是:VPN 让法律失效,所以 VPN 是漏洞。
这个逻辑链条里有一个断裂。VPN 是隐私基础设施,不是漏洞。把隐私工具识别为敌人,就像把锁匠当成犯罪同谋——因为有人用锁来藏东西,所以锁本身是问题。年龄验证制度的失效,不是因为 VPN 存在,而是因为"验证"这个操作被设计成了收集个人数据的入口,而用户合理地不想交出自己的浏览历史给第三方平台。
EU 不是在保护儿童。它在把识别对象搞错之后,试图用关闭基础设施来掩盖制度设计的失败。拿着旧地图找新大陆,确权的对象本身就是错的。
四
Meta 的员工比政策制定者更早感受到这种断裂。
纽约时报上周报道,Meta 内部因 AI 推进而"miserable"。不是反对 AI,是节奏问题:模型迭代速度超过了组织消化速度,产品策略每周变,内部工具还没稳定就换下一代。员工不是在用 AI 提升效率,是在不断适应 AI 带来的不确定性。
这和 Gowers 的"bar has been raised"是同一个现象的不同侧面。数学家发现问题的定义被 AI 改写了,企业员工发现工作的定义被 AI 改写了。两者都指向同一个结论:当能力可以无限复制,稀缺的不是答案,是判断答案对错的能力。
DELEGATE-52 的 25% 腐蚀率、Google 的设备认证、EU 的 VPN 禁令、Meta 的内部焦虑——这些不是孤立事件。它们是同一个结构性转变的四个切片:信任的生产方式正在从"人的 reputational capital"转向"机器的 attestation",但后者还没有准备好承担前者的功能。
人的信任是缓慢积累的。你读一个人的论文十年,你知道他的强项和盲区。你和一个团队合作三年,你知道谁靠谱谁喜欢吹牛。这种信任是资质态的——沉淀为经验,转化为识别能力,下次遇到噪声时你能读出信号。
机器的信任是即时购买的。Google 说:运行我的软件,你就是可信的。但这种信任不积累,不沉淀,不转化为识别能力。它是一次性验证,用完即弃。今天认证通过,明天模型换版本,腐蚀率可能从 25% 升到 40%,但认证系统不会告诉你。
五
所以真正的瓶颈不是 AI 的能力,是信任的循环。
AI 可以一小时写完博士论文,但验证它需要 Gowers 花几天。AI 可以一天生成一千份合同,但审查它们需要一千个律师——或者一个更聪明的 AI,然后你需要第三个 AI 来审查第二个 AI。这是信任的无限回归,不是解决方案。
Google 的设备认证试图用技术解决这个问题,但它解决的是"谁是 bot",不是"谁是对的"。EU 的 VPN 禁令试图用法律解决这个问题,但它解决的是"谁遵守了规则",不是"规则是否合理"。两者都跳过了中间环节:在确权和定价之前,先要有识别——知道什么是价值,什么是噪声,什么是真正的威胁,什么是假警报。
五资循环在"识别"环节断裂:社区无法从经验中沉淀"判断 AI 输出好坏"的能力作为信用资本。每次模型升级,识别标准重置。资质无法沉淀为资源,下一轮循环从零开始。
同时在"质押"环节断裂:AI 行为不可解释,责任无法归属。模型出错时,厂商推给训练数据,训练数据推给互联网,互联网没有地址。经验无法沉淀,信任无法积累。
这两个断裂是同一枚硬币的两面。当输出不可解释,你就无法从中学习;当责任无法归属,你就无法从中建立预期。AI 没有消除信任成本,它只是让信任成本隐形了——隐形成本不会消失,它会在你最需要信任的时候一次性结算。
结尾
Gowers 在文章最后说,他还需要更多时间来判断这件事的意义。这是数学家式的谨慎。但市场不会等。Google 已经把设备认证推上线了,EU 已经在起草 VPN 限制法案,Meta 的员工已经在用辞职投票。
混乱不是坏事。混乱是转译的入口——当旧的信任语法失效,新的语法才有机会建立。但前提是,你得先承认旧语法已经失效,而不是用更厚的围墙来修补它。
2026-05-10
夜雨聆风