乐于分享
好东西不私藏

AI进入官子阶段:从AlphaGo到Agent,我认为的AI下半场

AI进入官子阶段:从AlphaGo到Agent,我认为的AI下半场

上半场,AI主要在证明自己有多聪明;下半场,AI必须证明自己能把聪明稳定地变成价值。


写在前面

小时候我学了6年围棋, 在很长一段时间里下围棋也是我最大的爱好; 到了大学阶段, 我学的专业方向也和AI相关,因此在AI这个领域让我第一次真正感受到“智能边界被改写”的震动的,并不是2022年的ChatGPT,而是AlphaGo

对很多人来说,AlphaGo 只是“机器赢了人”;但对长期下棋的人来说,它真正震动我的地方在于:原来那些我以为只属于直觉、棋感、形势判断的东西,也可能被一种完全不同的计算范式逼近,甚至重写。

如果再把时间拉长一点看,AI 的发展其实有非常清晰的阶段感。

ImageNet 把视觉学习第一次真正放到了大规模数据基础上;随后 AlexNet 用深度卷积网络把图像识别精度一口气推上去;再往后,GAN 让人第一次强烈意识到,机器不只是会分类,还会生成;而 Transformer 则几乎重写了后面整个大模型时代的底层语言。

回头看,这些名字之所以成为里程碑,不只是因为它们“更强”,更因为它们改变了“智能是如何被训练出来”的方法。

前两天我读了姚顺雨《The Second Half》这篇blog,他在文章里很准确地点出了一个正在发生的事实:AI 的主问题变了。

上半场,我们主要在回答“怎么把模型做得更强”;而下半场,我们要开始回答“这些能力到底该如何进入真实世界,以及我们该如何判断它真的创造了价值”。

如果借一个围棋的比喻来讲,我会说:

AI 的上半场,更像布局和中盘,拼的是棋力、算力和手筋;而 AI 的下半场,开始进入官子,拼的是你能不能把优势一目一目,真正落到账上。


01 上半场赢的是“能力”,下半场要赢的是“兑现”

过去十几年,AI 的叙事核心其实很统一:谁能把模型做得更强,谁就更接近未来。

这套逻辑在上半场是完全成立的。因为那时候最稀缺的就是“能力本身”。视觉不够强,语言理解不够强,推理不够稳,泛化不够好,动作空间太窄,长期规划太差。所以从 ImageNet 到 AlexNet,从 AlphaGo 到 Transformer,整个行业都在做同一件事:把原来做不到的事,一件一件变成做得到。

姚顺雨对这件事的总结很精准:上半场的胜利者,基本都是“训练方法”和“模型架构”的胜利者,而不是 benchmark 本身的胜利者。学界和工业界都默认一套分工:方法负责创新,评测负责打分,任务只是承载这个游戏的题面。

于是整个增长飞轮也很清楚:

造更强的模型,刷更高的分数,再找更难的 benchmark,继续造更强的模型。

但现在,这个飞轮开始遇到一个微妙的问题:

模型能力还在涨,价值却没有同比例兑现。

这也是为什么我觉得,“AI 的下半场”这个说法不是修辞,而是事实。因为当一套越来越通用的训练配方开始出现之后,行业真正稀缺的东西,已经不再只是“多解一道题”的能力,而是:

  • 这道题值不值得被解
  • 这道题的分数和现实价值之间到底是什么关系
  • 模型的能力,能不能真正转化成产品、流程和生产率

说得更直白一点:

  • 上半场的核心矛盾是,模型还不够强。

  • 而下半场的核心矛盾是,模型已经很强了,但还没有足够大规模地进入现实、改造现实、留在现实里。


02 AlphaGo之后,我越来越觉得:智能的边界,不等于价值的边界

AlphaGo 是一个非常重要的分水岭。

它的重要,不只是因为它打败了人类棋手,更因为它让很多人第一次意识到:智能这件事,未必完全是“经验的神秘积累”,它也可能是搜索、策略、反馈和大规模计算共同作用的结果。

但 AlphaGo 之后真正值得思考的问题,其实不是“AI 还能赢多少棋”,而是:当 AI 在封闭规则系统中越来越强之后,它如何进入开放世界?

围棋的棋盘是明确的,规则是清晰的,胜负是可判定的,奖励也是收敛的。可现实世界恰恰相反:

  • 任务目标常常是模糊的
  • 反馈并不总是即时的
  • 评价标准也经常彼此冲突
  • 同一个任务,可能要和人、工具、组织流程反复交互

也就是说,AlphaGo 证明了 AI 可以在“确定性的复杂系统”里取得统治级优势;但 AI 的下半场,挑战的是另一种问题:如何在不确定、开放、连续、充满摩擦的系统里稳定工作。

这也是为什么,今天再看 AI,我们不能只盯着“它会不会”,还要盯着“它能不能长期、稳定、低摩擦地做”。


03 不只是研究者在这么看,产业界也在换 benchmark

如果只是研究者提出“evaluation 比 training 更重要”,那它可能还只是一个学术判断。

但真正让我觉得这件事值得认真对待的,是越来越多不同位置的人,正在用不同语言说同一件事。

Satya Nadella最近有一句话很值得反复咀嚼:如果要判断 AGI 或 AI 投资是否真的成功,他心里的 benchmark 不是某个模型榜单,也不是谁先喊出 AGI,而是发达经济体能不能出现接近工业革命级别的生产率增长,比如 10% 的增长。

这句话的意思其实非常清楚:

真正重要的不是模型有没有再赢一个考试,而是 AI 有没有真的变成广泛的经济增量。

你会发现,这和很多研究者提到的 utility problem,其实是一回事,只不过一个是研究语言,一个是产业语言。

前者说的是:AI 在考试、竞赛、推理 benchmark 上已经很强,但现实世界并没有被同样剧烈地重写。后者说的是:如果这些能力不能转化成真正的生产率和经济增长,那么它们离“社会层面的成功”还很远。

这很像围棋里一个很朴素的道理:

你中盘下出一手漂亮妙手,当然重要;但如果最后没有把它转化成实地和胜率,那它就还不是胜利。

AI 现在正站在这样一个阶段:我们已经看到了太多“漂亮手筋”,现在要看的是,它们能不能结算成真实世界里的利润、效率、组织能力和新产业。


04 从 demo 到 product,中间隔着一个真实世界

Andrej Karpathy 有一句话,我觉得几乎可以概括今天很多 AI 产品的处境:

Demo is works.any(), product is works.all().

一个 demo,只需要成功一次。但一个产品,要求的是大多数时候都稳定、可靠、可复用。

这也是为什么我越来越认同他所说的 Software 3.0。过去我们写代码,后来我们训练模型,而现在,prompt 本身开始越来越像程序,LLM 开始越来越像一种新的计算机。

但问题在于,新的“计算机”并不天然等于成熟的“产品”。

一个 agent 在演示里连续做对十步,确实很惊艳;但真实世界的问题是,它能不能在公司真实流程里连续一百次不犯错、在权限边界内工作、处理中途插入、接受人类打断、在上下文切换后继续保持一致。

这个差距,决定了 AI 下半场的主战场不再只是模型实验室,而是:

  • 工作流设计
  • 协作界面
  • 反馈机制
  • 容错系统
  • 人机分工
  • 长期上下文管理

所以下半场里一个更关键的词,不是 autonomy,而是:

governed autonomy。

也就是:被约束、可验证、可回退、可接管的自治。

真正好用的 AI 产品,可能不是“钢铁侠机器人”,而更像“钢铁侠战衣”:它不替代你,而是把你放大。


05 评估范式正在变化:AI 不再只是“离线答题”

如果“AI 的下半场”只是一个感觉,那还不够。真正让我觉得这不是情绪,而是结构性变化的,是近两年评测体系本身的变化。

过去的很多 benchmark,本质上都更接近“离线答题”:

  • 给模型一个任务
  • 输出一个答案
  • 用标准标签打分
  • 最后取平均值

但现实工作不是这样。

现实工作是人在环、工具在环、上下文在环、长期记忆也在环。

这也是为什么今天越来越多新的评估,开始强调以下几件事:

1)人类偏好重新回到中心

像 Chatbot Arena 这样的评估方式,本质上不是在问“模型答得像不像标准答案”,而是在问“真实用户更愿意选谁”。这说明随着模型能力越来越接近,静态 benchmark 已经不足以区分真实交互中的质量差异。

2)Agent 不只是要会做,还要稳定地做

像 τ-bench 这样的工作,把用户模拟、工具调用、领域规则都放进了评估里。它提醒我们:今天最强的 agent,也许已经能完成不少任务,但距离“稳定地完成同一类任务”,还有明显距离。

3)长期记忆不只是“记住”,还包括“更新”和“遗忘”

像 Memora 这样的长期记忆评测则更进一步:现实世界中的关系是变化的,用户偏好会变,旧信息会失效。真正有价值的,不是“把一切都记住”,而是“记住该记住的,忘掉该忘掉的,并在变化中保持一致”。

这三件事放在一起,其实已经很能说明问题了:

AI 下半场的评估,不再只是看模型会不会做题,而是看它能不能在人类、工具、记忆和真实任务的连续关系中稳定工作。


06 下半场不只是“更有用”,还会是“更接近世界”

如果前面几条线索,更多是在说 AI 如何进入企业、工作和产品;那么李飞飞提出的另一个方向,则把视角再往前推了一步:

AI 的下一个前沿,不只是把语言智能变得更有用,而是让智能真正进入世界。

她对今天 LLM 的一个描述我印象很深:它们很会说话,但很多时候仍然没有真正被世界锚定。

所以她提出,下一阶段真正关键的是 spatial intelligence,也就是空间智能:机器不仅要理解词语,还要理解几何、物理、动态关系和真实环境中的行动约束。

这其实很重要。因为很多人一谈下半场,就直接把它理解成“商业化”“应用落地”“企业服务”。这些当然没错,但如果只停在这里,还是太窄。

真正更大的变化其实是:

智能正在从“会说”走向“会做”,再从“会做”走向“会在世界里持续存在”。

而一旦进入物理世界、3D 世界、机器人世界、科学发现世界,今天很多靠文本堆出来的优势就会失效,新的瓶颈会重新出现。

所以我会把“AI 下半场”理解成两个同时发生的过程:

一个是近处的——智能进入工作流、进入组织、进入产业,接受 ROI、稳定性和反馈闭环的检验;

另一个是远处的——智能从语言世界进一步走向空间世界、行动世界和物理世界。

前者决定谁先赚到钱,后者决定谁能重写更大的版图。


07 我理解的 AI 下半场:不是一个命题,而是三场同时展开的战争

如果把前面这些观点放在一起,我会觉得,“AI 的下半场”其实不是一个单点判断,而是三场同时展开的战争。

第一场,是从 benchmark 到 utility 的战争

模型能力已经足够强,下一步真正决定成败的,是能不能转化成生产率、经济增量、行业效率和真实价值。

第二场,是从 demo 到 workflow/agent 的战争

漂亮演示远远不够,真正的难点在于让 AI 在复杂流程里稳定工作,接受人类监督,处理长期上下文,形成可验证、可回退、可复用的闭环。

第三场,是从 words 到 worlds 的战争

如果 AI 真的要成为下一代基础设施,它最终不能只停留在文本空间里,而要进一步进入空间、物理、行动和真实环境。

这三场战争并不是彼此替代的关系,而是一个递进结构:

  • 第一场解决“值不值得”
  • 第二场解决“能不能用”
  • 第三场解决“能不能进入更大的世界”

谁能在这三个层面里同时积累优势,谁才真正配得上“下半场的领先者”这个说法。


结语

回头看,从 AlphaGo 到今天的 agent,从 ImageNet、AlexNet、GAN、Transformer 到现在的世界模型、长记忆、真实评估,AI 一直在发生同一种变化:

它不断把原来只存在于实验室里的能力,逼近现实,再逼近一点,再逼近一点。

所以如果让我用一句话概括我现在对“AI 下半场”的理解,那就是:

上半场,AI 主要在证明自己有多聪明;下半场,AI 必须证明自己能把聪明稳定地变成价值。

而一旦这样看,你就会发现,真正的分野已经不只是模型参数、榜单名次和论文数量。

真正的分野,开始变成:

  • 谁更懂真实任务
  • 谁更懂评估
  • 谁更懂工作流
  • 谁更懂人机协作
  • 谁更早意识到,语言智能只是开始,世界智能才是更大的战场

如果借回围棋那个比喻,我会说:

AI 的妙手,上半场我们已经看得够多了。接下来真正重要的,是官子。是谁能把那些看起来领先半目的优势,最后稳稳地收回来,写进现实世界的目数里。


延伸阅读

  • 姚顺雨:《The Second Half》
  • Satya Nadella 关于 AI 与生产率的判断
  • Andrej Karpathy:Software 3.0
  • Fei-Fei Li:Spatial Intelligence
  • 腾讯混元 Hy3 preview 官方资料