AI 这么强, 为什么偏偏只在写代码上跑通了?

上一篇我们聊了为什么这两年 AI 编程突然能用了。文章发出去之后, 我收到不少反馈, 有读者顺着问了一个更刁钻的问题:

"AI 编程跑通了我能理解, 可它写论文也很强、画图也很强、连医生执照考试都能考过, 为什么大家都说 AI 编程是这两年最大的突破?"

这个问题问得很到位。它把表层的"哪里强"换成了底层的"哪里真的跑通了"。

巧的是, 五月中旬, Google DeepMind 的研究员姚顺宇接受了一次四小时的访谈。这位参与过 Claude 3.7、4.5 以及 Gemini 3 开发的研究员, 说了一句让我反复琢磨的话:

"目前没有哪一个场景真正形成了数据飞轮。甚至 AI 纯粹原生的应用场景,目前除了 Agentic coding,就是写代码之外,没有哪个场景是 AI 真正原生的场景,变得非常成功。"

翻译成大白话: AI 看起来什么都会, 但真正"跑通"的场景, 目前只有写代码这一个。

这句话说出来不是为了制造恐慌, 而是一个一线训模型的人对行业的冷静判断。它也正好接住了我们上一篇的问题 —— 既然编程是唯一跑通的场景, 那么真正值得问的不是 "为什么 AI 编程突然能用", 而是:

为什么偏偏是编程?

为什么不是写作先突破? 不是翻译? 不是客服? 不是医疗? 这些场景看起来需求都很大, 数据也都很多, 为什么偏偏是程序员先迎来海啸?

这个问题的答案, 藏在一个听起来有点冷的技术词里: 可验证奖励。

AI 是怎么学东西的

要理解"可验证奖励"为什么这么重要, 得先回忆一下 AI 是怎么变聪明的。

最早的大语言模型, 聪明法很朴素: 吞下海量文本, 学预测下一个词。这套方法把它训成了一个会聊天、能写文章、能解释概念的通才。但这套方法有个天花板 —— 它学的是"人怎么说话", 而不是"哪些话是对的"。

要往上突破, 就得换一个老师。让模型不光看着别人的答案模仿, 还得自己做题,做对了奖励, 做错了惩罚。这套思路叫强化学习, 我们上一篇讲编程突破时引用过 AlphaGo 的例子 —— 围棋之所以能被 AI 攻破,核心就是它能自己跟自己下棋, 胜负规则明确, 几百万盘下来, AI 自己就摸索出了人类几千年没想到的招法。

但强化学习有一个非常苛刻的前提条件: 你得有一个判官。

这个判官必须满足三件事:

它得客观。同样一道题, 今天打 80 分, 明天不能因为心情不好就打 60 分。
它得便宜。AI 做题要做几千万道才能进步, 如果每道题都得请人工评分, 光是预算就先把公司搞破产了。
它得快。AI 出答案是秒级的, 判官如果三天才给一次反馈, 这场训练就跑不起来。

现在你回头看,这三个条件凑齐有多难?

围棋凑齐了, 所以 AlphaGo 跑通了。可现实世界里, 绝大多数事情都凑不齐。

但代码这件事, 意外地凑齐了。

你给 AI 一道编程题, 让它写一段函数。它写完之后, 你不需要请一个人来主观评判"这代码写得有没有灵气"。你只需要做一件事: 把代码扔进编译器, 跑测试用例。

跑通了, 过; 没跑通, 挂。整个过程不到一秒钟, 不花一分钱, 也不会因为"那天评委心情不好"打分波动。

代码的判官, 就是机器本身。

这就是过去两年 AI 训练里那个最关键的新范式, 英文叫 Reinforcement Learning with Verifiable Rewards, 中文翻译过来是"可验证奖励的强化学习"。说穿了就一句话: 让 AI 在那些有客观对错的领域里, 自己跟自己玩命做题。

DeepSeek R1 火爆的那段时间, 业内反复提到这个词。OpenAI 的 o 系列、Claude 的思考模式、Gemini 3 的 Deep Think, 底层用的都是这套方法。它们的训练过程不再依赖人类一句一句给反馈, 而是让模型在数学题、编程题这种"自动批改的考卷"上, 自我博弈、自我进化。

所以你看到的那条 SWE-bench 飞涨曲线, 从 49% 到 87.6%, 不是巧合。它是 AlphaGo 故事在代码世界里的重演。围棋有 19×19 的棋盘和明确胜负, 代码有编译器和测试用例。围棋的判官是规则, 代码的判官是机器。两者本质上是同一回事。

姚顺宇在访谈里有一句话总结得很好, 大意是: AI 这个行业现在的瓶颈不在"做不到",而在"问题没被良好定义"。换句话说, AI 进步最快的领域, 永远是那些问题边界最清晰、答案最容易被验证的领域。

编程恰好就是那个被定义得最清晰的领域。

那些没跑通的地方

把视角转过来看其他场景, 你会立刻明白为什么 AI 没能在那里复制编程的奇迹。

写作。让 AI 写一篇文章, 谁来判分? 让人类来判, 三个评委可能有四个意见;让另一个 AI 来判, 你只是在训练它讨好那个判官。一篇文章的"好坏"本身就是个模糊概念, 没有"编译器"可言。所以 AI 能写出语法通顺、逻辑成立的文字, 但很难再往上跨一大步, 变成那种让你读完拍案叫绝的好文。它的判官没法告诉它什么叫"好"。

客服。你以为客户满意度评分是判官? 它太滞后了，客户挂了电话三天后才填问卷, 中间隔着无数干扰因素。它还充满人情误差，同一个回答,情绪好的客户给五星, 情绪差的客户给一星。这种信号训练不出 AlphaGo 式的飞跃。

医疗。这个领域有客观对错, 但反馈周期长得吓人。一个治疗方案对不对, 可能要等几个月甚至几年才看得清。更要命的是, 错了代价巨大, 不允许 AI 像下围棋那样"输几百万盘再学会"。判官存在, 但贵到用不起, 慢到等不及。

法律。同一个案子, 不同法官能判出不同结果, 光是"什么叫对"本身就是争论的焦点。判官根本不存在, 或者说, 存在得太多。

教育。一个老师教得好不好, 真正显现可能要等学生十年后的人生轨迹。这个反馈周期对 AI 训练来说, 等同于没有反馈。

你看出规律了吗?

凡是判官客观、便宜、快这三个条件凑不齐的领域, AI 在那里就是个"通用聪明人"，能说会道, 看起来什么都懂, 但很难再往专业天花板突破一大步。它学不到那种自我博弈的复利。

这也是为什么很多人对 AI 的体感是"惊艳但不可靠"。惊艳来自它的语言能力, 这部分靠预训练就能堆出来。不可靠来自它在那些没有客观判官的场景里, 本质上还是在做"语感填空", 而不是在"做对"。

下一批可能跑通的领域

这个故事最有意思的地方, 不是在告诉你 AI 哪些地方不行, 而是反过来给了一个判断工具: 哪些领域具备客观、便宜、快的判官, 哪些领域就最可能成为下一个被 AI 攻破的堡垒。

按这个标准看,有几个领域已经在路上了。

数学证明。Google DeepMind 的 AlphaProof 在 2024 年国际数学奥林匹克竞赛上拿了银牌, 六道题做对了四道。它能做到这件事, 关键就是用了一个叫 Lean 的形式化证明系统当判官。Lean 能机器化地验证每一步证明是否成立, 这就把数学从"人类专家说了算"变成了"机器可以批改"。一旦这个判官就位,数学领域立刻具备了被 AI 大规模训练的条件。所以你会看到推理模型在 AIME 这种数学竞赛上的成绩, 几个月就跳一大截。

蛋白质结构。AlphaFold 解决"给定氨基酸序列预测三维结构"这件事, 准确率达到接近实验测定水平。它的判官是 X 光晶体衍射和冷冻电镜实验数据 —— 预测对不对, 实验室能给出客观答案。DeepMind 创始人 Demis Hassabis 也凭这个项目拿了 2024 年的诺贝尔化学奖。

芯片设计。一块芯片设计得好不好, 跑仿真器就能给出客观分数: 功耗多少、延迟多少、面积多少。这又是一个机器化的判官。Google 自己内部已经在用 AI 辅助设计 TPU。

物理仿真。从天气预报到核聚变控制, 只要有物理实验数据当锚点, AI 就有了可以自我验证的判官。

注意这几个领域的共同点: 不是它们"特别重要", 而是它们恰好都有一个机器化的判官。换句话说, 它们都在某种程度上"被编程化"了，把原本依赖专家直觉的判断, 变成了机器能批改的考卷。

未来 AI 攻破的下一个领域, 大概率不会因为"那个领域更需要 AI", 而是因为"那个领域终于有了能让 AI 自我训练的判官"。

这对普通人意味着什么

读到这里, 你可能会忍不住把这把标准放到自己的工作上量一量。

判断标准其实就一句话: 你的工作有没有客观对错信号?

信号清晰且反馈快(代码、数学、结构化数据处理): AI 短期内会大规模重塑这个行业, 部分工作会被替代, 从业者要么往上走, 要么转向 AI 不擅长的"定义问题"那一层。
信号模糊或反馈慢(写作、咨询、教育、艺术、人际管理): AI 在你的领域短期内仍然是辅助工具, 但请注意"短期"两个字，可验证的边界一直在扩大。
完全没有客观信号(战略判断、品味、人际信任): AI 暂时进不来, 但你也要做好准备, 这些工作的市场价值会被重新定价。

姚顺宇还有一段判断, 我觉得也值得放在这里: 未来程序员可能很重要的一件事,是怎么和 AI 有效协作。具体怎么实现一个方案、下周交差, 这种工作可能会消失; 但"怎么设计方案让它跟公司未来契合"这种高层判断, 还得人来做。

这其实是一个通用规律: 可被机器批改的部分会被自动化, 需要人来定义"什么叫对"的那一层, 反而会变得更值钱。

写在最后

绕了一大圈, 我们其实是在回答一个比上一篇更深的问题。

上一篇讲的是"为什么这两年 AI 编程突然能用了", 答案在编程本身的技术演进里：大脑变聪明了, 身体变灵活了, 两者互相塑造。这一篇讲的是"为什么偏偏是编程", 答案不在编程里, 而在 AI 学习方式的本质里：它需要一个客观、便宜、快的判官, 而代码恰好提供了这样一个判官。

这两年的 AI 突破史, 可以浓缩成一句话: AI 在哪儿有好判官, 就在哪儿跑得快。

围棋是这样, 代码是这样, 数学和蛋白质也开始走上这条路。下一个领域是什么?可能取决于哪个领域最先发明出自己的自动化验证标准。

至于 AI 是怎么用这个判官训练出"会思考"的能力的, 那些让你看到屏幕上跳出 "思考中...请稍候" 的推理模型, 背后又发生了什么, 是我们下一篇要聊的话题。

我们下次见。