AI进入官子阶段:从AlphaGo到Agent,我认为的AI下半场-夜雨聆风

AI进入官子阶段:从AlphaGo到Agent,我认为的AI下半场

上半场，AI主要在证明自己有多聪明；下半场，AI必须证明自己能把聪明稳定地变成价值。

写在前面

小时候我学了6年围棋, 在很长一段时间里下围棋也是我最大的爱好; 到了大学阶段, 我学的专业方向也和AI相关，因此在AI这个领域让我第一次真正感受到“智能边界被改写”的震动的，并不是2022年的ChatGPT，而是AlphaGo。

对很多人来说，AlphaGo 只是“机器赢了人”；但对长期下棋的人来说，它真正震动我的地方在于：原来那些我以为只属于直觉、棋感、形势判断的东西，也可能被一种完全不同的计算范式逼近，甚至重写。

如果再把时间拉长一点看，AI 的发展其实有非常清晰的阶段感。

ImageNet 把视觉学习第一次真正放到了大规模数据基础上；随后 AlexNet 用深度卷积网络把图像识别精度一口气推上去；再往后，GAN 让人第一次强烈意识到，机器不只是会分类，还会生成；而 Transformer 则几乎重写了后面整个大模型时代的底层语言。

回头看，这些名字之所以成为里程碑，不只是因为它们“更强”，更因为它们改变了“智能是如何被训练出来”的方法。

前两天我读了姚顺雨《The Second Half》这篇blog，他在文章里很准确地点出了一个正在发生的事实：AI 的主问题变了。

上半场，我们主要在回答“怎么把模型做得更强”；而下半场，我们要开始回答“这些能力到底该如何进入真实世界，以及我们该如何判断它真的创造了价值”。

如果借一个围棋的比喻来讲，我会说：

AI 的上半场，更像布局和中盘，拼的是棋力、算力和手筋；而 AI 的下半场，开始进入官子，拼的是你能不能把优势一目一目，真正落到账上。

01 上半场赢的是“能力”，下半场要赢的是“兑现”

过去十几年，AI 的叙事核心其实很统一：谁能把模型做得更强，谁就更接近未来。

这套逻辑在上半场是完全成立的。因为那时候最稀缺的就是“能力本身”。视觉不够强，语言理解不够强，推理不够稳，泛化不够好，动作空间太窄，长期规划太差。所以从 ImageNet 到 AlexNet，从 AlphaGo 到 Transformer，整个行业都在做同一件事：把原来做不到的事，一件一件变成做得到。

姚顺雨对这件事的总结很精准：上半场的胜利者，基本都是“训练方法”和“模型架构”的胜利者，而不是 benchmark 本身的胜利者。学界和工业界都默认一套分工：方法负责创新，评测负责打分，任务只是承载这个游戏的题面。

于是整个增长飞轮也很清楚：

造更强的模型，刷更高的分数，再找更难的 benchmark，继续造更强的模型。

但现在，这个飞轮开始遇到一个微妙的问题：

模型能力还在涨，价值却没有同比例兑现。

这也是为什么我觉得，“AI 的下半场”这个说法不是修辞，而是事实。因为当一套越来越通用的训练配方开始出现之后，行业真正稀缺的东西，已经不再只是“多解一道题”的能力，而是：

这道题值不值得被解
这道题的分数和现实价值之间到底是什么关系
模型的能力，能不能真正转化成产品、流程和生产率

说得更直白一点：

上半场的核心矛盾是，模型还不够强。
而下半场的核心矛盾是，模型已经很强了，但还没有足够大规模地进入现实、改造现实、留在现实里。

02 AlphaGo之后，我越来越觉得：智能的边界，不等于价值的边界

AlphaGo 是一个非常重要的分水岭。

它的重要，不只是因为它打败了人类棋手，更因为它让很多人第一次意识到：智能这件事，未必完全是“经验的神秘积累”，它也可能是搜索、策略、反馈和大规模计算共同作用的结果。

但 AlphaGo 之后真正值得思考的问题，其实不是“AI 还能赢多少棋”，而是：当 AI 在封闭规则系统中越来越强之后，它如何进入开放世界？

围棋的棋盘是明确的，规则是清晰的，胜负是可判定的，奖励也是收敛的。可现实世界恰恰相反：

任务目标常常是模糊的
反馈并不总是即时的
评价标准也经常彼此冲突
同一个任务，可能要和人、工具、组织流程反复交互

也就是说，AlphaGo 证明了 AI 可以在“确定性的复杂系统”里取得统治级优势；但 AI 的下半场，挑战的是另一种问题：如何在不确定、开放、连续、充满摩擦的系统里稳定工作。

这也是为什么，今天再看 AI，我们不能只盯着“它会不会”，还要盯着“它能不能长期、稳定、低摩擦地做”。

03 不只是研究者在这么看，产业界也在换 benchmark

如果只是研究者提出“evaluation 比 training 更重要”，那它可能还只是一个学术判断。

但真正让我觉得这件事值得认真对待的，是越来越多不同位置的人，正在用不同语言说同一件事。

Satya Nadella最近有一句话很值得反复咀嚼：如果要判断 AGI 或 AI 投资是否真的成功，他心里的 benchmark 不是某个模型榜单，也不是谁先喊出 AGI，而是发达经济体能不能出现接近工业革命级别的生产率增长，比如 10% 的增长。

这句话的意思其实非常清楚：

真正重要的不是模型有没有再赢一个考试，而是 AI 有没有真的变成广泛的经济增量。

你会发现，这和很多研究者提到的 utility problem，其实是一回事，只不过一个是研究语言，一个是产业语言。

前者说的是：AI 在考试、竞赛、推理 benchmark 上已经很强，但现实世界并没有被同样剧烈地重写。后者说的是：如果这些能力不能转化成真正的生产率和经济增长，那么它们离“社会层面的成功”还很远。

这很像围棋里一个很朴素的道理：

你中盘下出一手漂亮妙手，当然重要；但如果最后没有把它转化成实地和胜率，那它就还不是胜利。

AI 现在正站在这样一个阶段：我们已经看到了太多“漂亮手筋”，现在要看的是，它们能不能结算成真实世界里的利润、效率、组织能力和新产业。

04 从 demo 到 product，中间隔着一个真实世界

Andrej Karpathy 有一句话，我觉得几乎可以概括今天很多 AI 产品的处境：

Demo is works.any(), product is works.all().

一个 demo，只需要成功一次。但一个产品，要求的是大多数时候都稳定、可靠、可复用。

这也是为什么我越来越认同他所说的 Software 3.0。过去我们写代码，后来我们训练模型，而现在，prompt 本身开始越来越像程序，LLM 开始越来越像一种新的计算机。

但问题在于，新的“计算机”并不天然等于成熟的“产品”。

一个 agent 在演示里连续做对十步，确实很惊艳；但真实世界的问题是，它能不能在公司真实流程里连续一百次不犯错、在权限边界内工作、处理中途插入、接受人类打断、在上下文切换后继续保持一致。

这个差距，决定了 AI 下半场的主战场不再只是模型实验室，而是：

工作流设计
协作界面
反馈机制
容错系统
人机分工
长期上下文管理

所以下半场里一个更关键的词，不是 autonomy，而是：

governed autonomy。

也就是：被约束、可验证、可回退、可接管的自治。

真正好用的 AI 产品，可能不是“钢铁侠机器人”，而更像“钢铁侠战衣”：它不替代你，而是把你放大。

05 评估范式正在变化：AI 不再只是“离线答题”

如果“AI 的下半场”只是一个感觉，那还不够。真正让我觉得这不是情绪，而是结构性变化的，是近两年评测体系本身的变化。

过去的很多 benchmark，本质上都更接近“离线答题”：

给模型一个任务
输出一个答案
用标准标签打分
最后取平均值

但现实工作不是这样。

现实工作是人在环、工具在环、上下文在环、长期记忆也在环。

这也是为什么今天越来越多新的评估，开始强调以下几件事：

1）人类偏好重新回到中心

像 Chatbot Arena 这样的评估方式，本质上不是在问“模型答得像不像标准答案”，而是在问“真实用户更愿意选谁”。这说明随着模型能力越来越接近，静态 benchmark 已经不足以区分真实交互中的质量差异。

2）Agent 不只是要会做，还要稳定地做

像 τ-bench 这样的工作，把用户模拟、工具调用、领域规则都放进了评估里。它提醒我们：今天最强的 agent，也许已经能完成不少任务，但距离“稳定地完成同一类任务”，还有明显距离。

3）长期记忆不只是“记住”，还包括“更新”和“遗忘”

像 Memora 这样的长期记忆评测则更进一步：现实世界中的关系是变化的，用户偏好会变，旧信息会失效。真正有价值的，不是“把一切都记住”，而是“记住该记住的，忘掉该忘掉的，并在变化中保持一致”。

这三件事放在一起，其实已经很能说明问题了：

AI 下半场的评估，不再只是看模型会不会做题，而是看它能不能在人类、工具、记忆和真实任务的连续关系中稳定工作。

06 下半场不只是“更有用”，还会是“更接近世界”

如果前面几条线索，更多是在说 AI 如何进入企业、工作和产品；那么李飞飞提出的另一个方向，则把视角再往前推了一步：

AI 的下一个前沿，不只是把语言智能变得更有用，而是让智能真正进入世界。

她对今天 LLM 的一个描述我印象很深：它们很会说话，但很多时候仍然没有真正被世界锚定。

所以她提出，下一阶段真正关键的是 spatial intelligence，也就是空间智能：机器不仅要理解词语，还要理解几何、物理、动态关系和真实环境中的行动约束。

这其实很重要。因为很多人一谈下半场，就直接把它理解成“商业化”“应用落地”“企业服务”。这些当然没错，但如果只停在这里，还是太窄。

真正更大的变化其实是：

智能正在从“会说”走向“会做”，再从“会做”走向“会在世界里持续存在”。

而一旦进入物理世界、3D 世界、机器人世界、科学发现世界，今天很多靠文本堆出来的优势就会失效，新的瓶颈会重新出现。

所以我会把“AI 下半场”理解成两个同时发生的过程：

一个是近处的——智能进入工作流、进入组织、进入产业，接受 ROI、稳定性和反馈闭环的检验；

另一个是远处的——智能从语言世界进一步走向空间世界、行动世界和物理世界。

前者决定谁先赚到钱，后者决定谁能重写更大的版图。

07 我理解的 AI 下半场：不是一个命题，而是三场同时展开的战争

如果把前面这些观点放在一起，我会觉得，“AI 的下半场”其实不是一个单点判断，而是三场同时展开的战争。

第一场，是从 benchmark 到 utility 的战争

模型能力已经足够强，下一步真正决定成败的，是能不能转化成生产率、经济增量、行业效率和真实价值。

第二场，是从 demo 到 workflow/agent 的战争

漂亮演示远远不够，真正的难点在于让 AI 在复杂流程里稳定工作，接受人类监督，处理长期上下文，形成可验证、可回退、可复用的闭环。

第三场，是从 words 到 worlds 的战争

如果 AI 真的要成为下一代基础设施，它最终不能只停留在文本空间里，而要进一步进入空间、物理、行动和真实环境。

这三场战争并不是彼此替代的关系，而是一个递进结构：

第一场解决“值不值得”
第二场解决“能不能用”
第三场解决“能不能进入更大的世界”

谁能在这三个层面里同时积累优势，谁才真正配得上“下半场的领先者”这个说法。

结语

回头看，从 AlphaGo 到今天的 agent，从 ImageNet、AlexNet、GAN、Transformer 到现在的世界模型、长记忆、真实评估，AI 一直在发生同一种变化：

它不断把原来只存在于实验室里的能力，逼近现实，再逼近一点，再逼近一点。

所以如果让我用一句话概括我现在对“AI 下半场”的理解，那就是：

上半场，AI 主要在证明自己有多聪明；下半场，AI 必须证明自己能把聪明稳定地变成价值。

而一旦这样看，你就会发现，真正的分野已经不只是模型参数、榜单名次和论文数量。

真正的分野，开始变成：

谁更懂真实任务
谁更懂评估
谁更懂工作流
谁更懂人机协作
谁更早意识到，语言智能只是开始，世界智能才是更大的战场

如果借回围棋那个比喻，我会说：

AI 的妙手，上半场我们已经看得够多了。接下来真正重要的，是官子。是谁能把那些看起来领先半目的优势，最后稳稳地收回来，写进现实世界的目数里。