
2025年初,所有人还在问同一个问题:谁的模型更强?
这个问题的保质期,只有六个月。
大模型撞墙:边际递减的味道
2025年5月,Claude 4发布。SWE-bench 72.5%,7小时连续任务不掉线,上下文窗口撑到百万。同月,Gemini 2.5带着100万token输入和24种语言双声道输出杀到。8月,GPT-5把SWE-bench推到74.9%,数学AIME 94.6%,幻觉率砍掉45%。
三强鼎立,格局落定。
但格局落定不是终局。是天花板。
接下来的12个月里,GPT-5.2在44项专业任务里拿到70.9%胜率。GPT-5.4把上下文撑到百万,推理编码各涨30%,成本砍40%。GPT-6把上下文干到200万,HumanEval冲到92.3%。
数字还在涨。但所有从业者心里都有数:涨得越来越慢,越来越贵,越来越边际递减。
这叫什么?这叫撞墙。
不是大模型没用。是大模型的单体能力收益,已经过了最陡的那段曲线。从128K到200万token,上下文窗口膨胀了15倍,但你的实际工作流体验提升了15倍吗?幻觉率从GPT-5的-45%到GPT-5.5 Instant的-52.5%,又挤出了7.5个百分点,但你真觉得AI突然变诚实了?
就像你往一杯糖水里加糖。前十勺,甜度飙升。第二十勺,你只觉得更黏了。第三十勺,糖沉在杯底,再也化不开。
大模型的"糖",快化不开了。
不是量变不够猛。是质变需要换轨道。
智能体破局:从"你问我答"到"我自己干"
这条新轨道,叫智能体。
2025年,CUA(计算机使用代理,让AI操作电脑)和MCP(模型上下文协议,让AI调用外部工具的标准)打下地基。OpenAI发了ChatGPT Agent,微软让Windows 11原生支持Agent,谷歌推了Gemini Deep Research Agent。
方向定了:AI不再只回答问题,它要自己动手。
但2025年的Agent,还像刚学会走路的婴儿。跌跌撞撞,走两步就摔。
到2026年,婴儿站起来了。而且跑了起来。
两只巨兽。
OpenClaw,社区叫它"龙虾"。345K Star,100万部署,13000个技能包。它不光能写代码、查资料、管日程,还能控制机器人。v2.18版本升级了认知架构,成本降了44%。这不是玩具。这是基础设施。
Hermes Agent,代号"爱马仕"。90K Star,听起来比龙虾少。但它的三层持久记忆架构让Agent第一次有了"记性"——昨天聊的、上周做的、上个月犯的错,它都记得。自动技能封装让Token消耗砍半。GEPA自我迭代机制意味着它会自己升级自己。
一个AI,能自己改自己的代码。像一台机器,能自己给自己换零件。
Hermes登顶OpenRouter全球调用榜,每天处理2710亿Token。2710亿。一天。全球所有人类每天说的话,大约几千亿词。一个Agent系统,一天处理的文字量已经接近全人类的日常对话量。
这不是工具。这是生态。
从"你问我答"到"你说我干",走了两年。从"你说我干"到"我自己干",GEPA自我迭代只用了几个月。
反问来了:Agent这么猛,为什么之前跑不起来?
答案是模型不够稳。幻觉率太高的时候,Agent每走一步都可能走错,走错了还得人擦屁股。不如不用。当幻觉率被压到1%—2%的区间,Agent才终于有了上路的资格。
大模型撞墙和智能体破局,不是两个独立的故事。是同一个故事的上下半场。
国产翻盘:最硬的翻盘
而生态一旦起来,"谁的模型更强"这个问题就过时了。新问题是:谁的Agent更好用?谁的生态更繁荣?谁的成本更低?
恰好,这两个维度,国产全部翻盘。
2026年5月,一个数字被反复引用:国产AI调用量首超美国。
这句话的分量,需要拆开来看。
先说成本。DeepSeek-R1在2025年就给行业上了一课:训练成本560万美元,OpenAI同级别的十四分之一。不是偷工减料。是用更聪明的架构干同样的事。到2026年4月,DeepSeek V4把参数拉到1.6万亿,上下文撑到100万,推理成本再砍73%。更狠的是,它适配华为昇腾。这意味着什么?意味着从芯片到模型到推理,全链路不在英伟达的生态里。美国的算力封锁,封了个寂寞。
再说能力。2026年2月,智谱GLM-5以744B参数拿到HLE评测50.4%,全球第一。幻觉率1.2%。不是国产模型第一次在某个榜单上拿第一。但这是第一次,在最被国际社区认可的评测上,中国模型站到了最顶上。不需要加定语。
一个月后,Qwen3.5-Max-Preview在LM Arena盲测中全球第一,超越GPT-5.4和Claude 4.5。盲测。不知道是谁的输出,人投出来的。全球开发者用脚投的票。这比任何自报数据都硬。
最狠的一刀来自百度。2026年5月,文心5.1把参数从2.4万亿压到8000亿,前代的三分之一,预训练成本只剩业界的6%。但LM Arena排名呢?国内第一,全球第四。用三分之一的参数干全球前四的活。这不是弯道超车。这是换了一条赛道在跑。
开源层面,中国大模型的全球下载份额到了17%。Kimi K2.6用1T MoE架构、300个子Agent并行,拿下开源全球第一。在OpenAI、Meta、Google的老家,每下载六个开源模型,就有一个来自中国。
开源这场仗,赢的不是技术。赢的是信仰。全球开发者在HuggingFace上选模型的时候,不看国籍,只看效果和成本。中国模型被选了,就是被认可了。没有滤镜,没有偏见,只有代码和数据说话。
这是最硬的翻盘。
短板不回避:翻盘不是全面碾压
但我不打算为国产洗地。短板很明确。
算力卡脖子的问题还在。DeepSeek V4适配昇腾是壮举,也是无奈——如果有充足的H100,谁愿意花大力气改底层适配?昇腾在追赶,但生态差距不是一年两年能补的。
基础研究差距还在。Transformer架构是Google发明的,RLHF是OpenAI和DeepMind的功劳,MoE是Google先做的。国产在工程上追平了,在原创性上还有路要走。2026年1月智源EMU3登上《自然》封面,是中国大模型首次登正刊。里程碑。但也是第一座。
Agent生态上,OpenClaw和Hermes都是海外项目。国产Agent目前没有同等量级的开源项目。大模型追上来了,Agent层还差一口气。
多模态也有短板。Sora 2做到了音画合一,字节Seedance 2.0也搞了音视频联合生成,但角色一致性问题——同一个角色在不同镜头里长得不一样——还是没彻底解决。视频生成要真用到影视制作,角色漂移就是致命伤。
翻盘是在应用层、工程层、性价比层翻的盘。在最底层的科学层面,差距依然存在。
承认短板,不丢人。装没有,才丢人。
但另一个事实同样不可回避:2025年你说这些短板的时候,差距是代际的。2026年再说,差距已经是个位百分点的。弱点的消失速度,远超大多数人的预期。
具身智能量产:机器人走出实验室

2025年,具身智能拿到735亿融资,同比增长400%。工业渗透率25%。
2026年,量产来了。
特斯拉Optimus Gen-3,7月投产,年产能100万台,单台4.9万美元。一辆二手本田的钱,买一个不知疲倦的工人。
但最耐人寻味的细节是什么?70%零部件来自中国供应。
一台美国设计的人形机器人,七成零件是中国造的。这像什么?像iPhone。设计在加州,制造在深圳。产业链的根,扎在中国。
Figure F03更夸张。120天产能提升24倍,一小时下线一台。两台机器人能"读心"协同——一台铺左边被角,另一台同步铺右边。不需要人指挥,它们自己商量好了。
中国首个具身智能标准6月生效。标准先行,量产跟进。
但冷静一下。4.9万美元的机器人,目前主要干重复性工业操作。精细装配、非结构化环境决策,还是个问号。供应链优势和品牌定价权也是两回事——iPhone的零件大量来自中国,利润的大头呢?
量产门口到了。"量产"和"赚钱"之间,还有一段路。
AI编程:工程师变指挥官
AI编程的变革更直接。
2025年,Cursor估值293亿。GitHub Copilot用户2000万。Claude Code从终端Agent起步。AI编程从"自动补全"变成了"你说需求,我写项目"。
2026年,Claude Code Auto Mode转正,拿到100万Token上下文,还跟SpaceX搭上了算力合作。Cursor 3推出全新Agent模式。Anthropic的趋势报告写了一句话:工程师正在变成"指挥官"。
84%的Web开发者已经融入AI工作流。生产力提升50%到150%。
以前的工程师写代码。现在的工程师写需求、审方案、查结果。从执行者变成管理者。
这个转变不是渐进的。是断层的。你今天还在手动写每一行代码,明天就发现同行用AI一天干了你一周的活。不是AI取代你。是用AI的人取代不用AI的人。
六条线,一根筋
回看这18个月,六条主线看起来各有各的节奏。但底层逻辑只有一根筋:
模型能力跃迁——百万上下文、幻觉率骤降、国产盲测登顶——解决的是"够不够聪明"。
Agent自主进化——从CUA+MCP到OpenClaw+Hermes,从"做事"到"自我进化"——解决的是"能不能自主"。
开源追平闭源——DeepSeek V4和Kimi K2.6开源比肩GPT-5.5——解决的是"谁用得起"。
具身智能量产——Optimus投产、Figure 1台/小时——解决的是"物理世界触角"。
多模态大一统——Sora 2音画合一、Seedance 2.0音视频联合生成——解决的是"感知维度"。
Agentic Coding——工程师变指挥官——是前五个趋势在生产力场景的交汇点。
聪明了,自主了,便宜了,能动了,能看能听了。最后汇聚到一点:AI从工具变成同事。
大模型撞墙,是因为"更聪明"这条路的边际收益见顶了。智能体破局,是因为"更自主"这条路的收益刚刚打开。国产翻盘,是因为"更便宜"和"更开放"两条路,中国人走通了。
GPT-6的200万token上下文很震撼。但DeepSeek V4用73%的成本降幅适配国产芯片,比200万token震撼十倍。前者是技术秀,后者是产业革命。
Claude Opus 4.7的Symphony多模态架构很优雅。但Hermes Agent每天2710亿Token的调用量,比任何架构都更能说明谁在赢。架构是论文,调用是选票。
跑分是军备竞赛,成本是商业逻辑。军备竞赛总有尽头,商业逻辑永不停歇。
接下来的18个月,谁能在Agent生态上建出中国的OpenClaw和Hermes,谁能在具身智能的核心器件上拿到定价权,谁就真正把"翻盘"变成"碾压"。
翻盘是比分反超。碾压是规则重写。
中国AI走到了前一步。后一步,才是真正的决赛。
夜雨聆风