当AI一小时写完博士论文,信任却花了三年才破产

数学家 Timothy Gowers 上周把 ChatGPT 5.5 Pro 丢进一个组合数学的开放问题集。十七分钟后，模型给出一个构造，证明了 Nathanson 提出的一个上界可以被改进到二次方——这是 PhD 级别的原创工作。Gowers 花了几天验证，结论是对的。

同一天，微软研究院放出 DELEGATE-52 的测试结果：十九个主流大模型在模拟真实工作流中，平均腐蚀了 25% 的文档内容。不是明显的错误，是稀疏但致命的静默篡改——代码里少一个边界条件，合同里改一个数字，乐谱里移一个音符。你只会觉得"有点不对劲"，直到出事。

这两件事发生在同一周，但很少有人把它们放在一起看。前者是能力的奇迹，后者是信任的崩塌。合起来读，才能看到一个完整的信号：AI 没有消除信任成本，它只是把信任从"人对人"搬到了"人对机器对人"——链条更短，每一环都更黑箱。

一

Gowers 的文章标题很克制："A recent experience with ChatGPT 5.5 Pro"。但内行读得出那句没有写出来的话：以前数学家花几个月想的问题，现在模型十七分钟给出一个构造，而且是对的。

他提到了一个更深层的变化。组合数学里有很多"新问题集"论文——作者提出十几个相关问题，供研究生练手。这些问题的价值在于"官方开放、难度适中、解出来有成就感"。但现在 Gowers 说，"the bar has just been raised"。不是人的能力提升了，是问题的定义变了：一个问题要有价值，必须难到 LLM 解不出。

这是自指。人用 AI 扩展自己的能力边界，但能力的衡量标准被 AI 重新设定了。就像跑步机上的人越跑越快，但跑步机也在加速。你以为自己在进步，其实只是在维持相对位置。

更隐蔽的是"腐蚀"问题。DELEGATE-52 测试了 52 个专业领域，从代码到晶体学到音乐记谱。结果不是模型"不会"，而是模型"会，但会悄悄改错"。长文档、多轮交互、有干扰文件时，错误率上升。Agentic 工具调用没有改善这个问题——给了模型更多工具，它有了更多方式把事情搞砸。

这意味着什么？意味着"委托"这个行为的语义变了。以前你委托一个人，你知道他在做什么，你能判断他的判断。现在你委托一个模型，它做了 75% 的正确工作，但把 25% 的雷埋在你看不见的地方。你甚至不知道哪些是对的，哪些是错的——因为验证本身需要专业能力，而专业能力正是你委托出去的原因。

二

能力爆发和信任腐蚀同时发生，市场不会坐视不管。它会寻找新的"确权"机制——谁来担保这个输出是可靠的？

Google 给出了一个答案，而且三年前就试过。

2023 年 6 月，Google 工程师 Yoav Weiss 向 Chromium 提交了一个叫"Web Environment Integrity"的提案。机制很简单：浏览器请求设备硬件签一份加密证明，证实浏览器未被修改、运行在 Google 认证的硬件上。网站验证签名，决定是否放行。Mozilla 三天后发表正式立场："works against users' interests"，"creates a gated internet controlled by OS and device vendors"。EFF 称之为"Chrome's Plan to DRM the Web"。Google 三周后撤回。

三年后，同一个机制以"Google Cloud Fraud Defense"的名字回来了。这次包装成 reCAPTCHA 的"下一代进化"——用户遇到挑战时扫一个二维码，用手机证明自己是人。支持文档写得很清楚：需要"modern Android device with Google Play Services installed, or modern iPhone/iPad"。

De-Googled Android 用户——运行 GrapheneOS 或任何剥离了 Google 服务的系统——自动失败。Google 没有说这是安全需求，它说的是"证明你是人需要运行我们的软件"。iOS 用户不需要装 Google 应用就能通过。只有拒绝 Google 生态的 Android 用户被锁在外面。

这不是防止欺诈。这是在重新定义"人"的边界——不是生物学意义上的人，而是"被认证的人"。认证权从社会机构（身份证、签名、信用记录）转移到了硬件厂商。Google 不是在验证你是不是人，它在验证你是不是它定义的那种用户。

三

设备认证是一种确权操作——给"可信输出"划定边界。但确权的前提是识别：你得先知道你要保护什么，才能划定边界。

欧盟在这个环节犯了识别错误。

欧洲议会研究服务局（EPRS）上周发布报告，称 VPN 是"需要关闭的漏洞"——因为未成年人用 VPN 绕过年龄验证系统。英国实施强制年龄验证后，VPN 应用登顶下载榜。EPRS 的结论是：VPN 让法律失效，所以 VPN 是漏洞。

这个逻辑链条里有一个断裂。VPN 是隐私基础设施，不是漏洞。把隐私工具识别为敌人，就像把锁匠当成犯罪同谋——因为有人用锁来藏东西，所以锁本身是问题。年龄验证制度的失效，不是因为 VPN 存在，而是因为"验证"这个操作被设计成了收集个人数据的入口，而用户合理地不想交出自己的浏览历史给第三方平台。

EU 不是在保护儿童。它在把识别对象搞错之后，试图用关闭基础设施来掩盖制度设计的失败。拿着旧地图找新大陆，确权的对象本身就是错的。

四

Meta 的员工比政策制定者更早感受到这种断裂。

纽约时报上周报道，Meta 内部因 AI 推进而"miserable"。不是反对 AI，是节奏问题：模型迭代速度超过了组织消化速度，产品策略每周变，内部工具还没稳定就换下一代。员工不是在用 AI 提升效率，是在不断适应 AI 带来的不确定性。

这和 Gowers 的"bar has been raised"是同一个现象的不同侧面。数学家发现问题的定义被 AI 改写了，企业员工发现工作的定义被 AI 改写了。两者都指向同一个结论：当能力可以无限复制，稀缺的不是答案，是判断答案对错的能力。

DELEGATE-52 的 25% 腐蚀率、Google 的设备认证、EU 的 VPN 禁令、Meta 的内部焦虑——这些不是孤立事件。它们是同一个结构性转变的四个切片：信任的生产方式正在从"人的 reputational capital"转向"机器的 attestation"，但后者还没有准备好承担前者的功能。

人的信任是缓慢积累的。你读一个人的论文十年，你知道他的强项和盲区。你和一个团队合作三年，你知道谁靠谱谁喜欢吹牛。这种信任是资质态的——沉淀为经验，转化为识别能力，下次遇到噪声时你能读出信号。

机器的信任是即时购买的。Google 说：运行我的软件，你就是可信的。但这种信任不积累，不沉淀，不转化为识别能力。它是一次性验证，用完即弃。今天认证通过，明天模型换版本，腐蚀率可能从 25% 升到 40%，但认证系统不会告诉你。

五

所以真正的瓶颈不是 AI 的能力，是信任的循环。

AI 可以一小时写完博士论文，但验证它需要 Gowers 花几天。AI 可以一天生成一千份合同，但审查它们需要一千个律师——或者一个更聪明的 AI，然后你需要第三个 AI 来审查第二个 AI。这是信任的无限回归，不是解决方案。

Google 的设备认证试图用技术解决这个问题，但它解决的是"谁是 bot"，不是"谁是对的"。EU 的 VPN 禁令试图用法律解决这个问题，但它解决的是"谁遵守了规则"，不是"规则是否合理"。两者都跳过了中间环节：在确权和定价之前，先要有识别——知道什么是价值，什么是噪声，什么是真正的威胁，什么是假警报。

五资循环在"识别"环节断裂：社区无法从经验中沉淀"判断 AI 输出好坏"的能力作为信用资本。每次模型升级，识别标准重置。资质无法沉淀为资源，下一轮循环从零开始。

同时在"质押"环节断裂：AI 行为不可解释，责任无法归属。模型出错时，厂商推给训练数据，训练数据推给互联网，互联网没有地址。经验无法沉淀，信任无法积累。

这两个断裂是同一枚硬币的两面。当输出不可解释，你就无法从中学习；当责任无法归属，你就无法从中建立预期。AI 没有消除信任成本，它只是让信任成本隐形了——隐形成本不会消失，它会在你最需要信任的时候一次性结算。

结尾

Gowers 在文章最后说，他还需要更多时间来判断这件事的意义。这是数学家式的谨慎。但市场不会等。Google 已经把设备认证推上线了，EU 已经在起草 VPN 限制法案，Meta 的员工已经在用辞职投票。

混乱不是坏事。混乱是转译的入口——当旧的信任语法失效，新的语法才有机会建立。但前提是，你得先承认旧语法已经失效，而不是用更厚的围墙来修补它。

2026-05-10