中国大模型公司的估值表,正在被一个新变量推倒重写。不是参数,不是月活,是Coding能力。
DeepSeek正在洽谈国内AI公司史上最大单笔融资70亿美元,估值或达590亿美元;月之暗面在Kimi K2.5把Coding能力拉满之后,ARR 3个月冲到2亿美元,估值飙到200亿美元;智谱GLM-5拿下开源模型榜首,港股市值一度触及8800亿港元。而另一边,那些Coding短板的玩家,即使月活依然庞大,资本市场给的定价却开始犹豫。
资本市场对AI公司的判断,过去两年经历了多轮切换。先比参数,再比多模态,接着看C端日活。但现在,一个更粗糙却更真实的标尺出现了:你的模型能不能写好代码。
这个变化的底层逻辑很直白。Coding能力是离生产力最近的指标。写诗、画画、聊天,固然能吸引用户,但企业客户买单时,问的第一句话往往是:“它能帮我程序员省多少时间?”当一家公司可以清晰证明自己的模型在SWE-bench等权威编码基准上跑进前列,它拿到的就不是“体验式预算”,而是“替代性预算”——后者没有天花板。
雷峰网拿到的一组数据非常说明问题:月之暗面在Kimi K2.5版本后,20天收入超过2025年全年;智谱MaaS平台ARR同比暴涨60倍。这些爆发式增长的时间点,都与各自模型的Coding能力突破高度重合。
AI视频、AI搜索、AI社交……几乎所有大模型公司都在找场景,但Coding直接打通了从技术Demo到经常性收入(ARR)的路径。它不需要漫长的用户教育,因为开发者本身就是第一批愿意付费的群体。

这背后的商业逻辑很残酷:Coding能力强的模型,可以同时赚两份钱。一份来自订阅个人开发者或企业开发者工具;另一份来自API调用量,因为写代码是最高频的推理场景之一。一份来自月之暗面的内部数据显示,其API收入中,代码相关的调用占比已经超过40%。
更关键的是,Coding正在成为大模型能力的“元指标”。一个模型如果能稳定生成高质量代码,通常意味着它在逻辑推理、规划、长上下文理解上已经达到较高水平,这些能力会自然溢出到其他场景。于是,估值模型里的溢价项,从“可能做多模态”变成了“已经能用代码赚钱”。
但不是所有玩家都跟上了这个逻辑。MiniMax港股上市首日市值突破1000亿港元,但若对比Coding能力领先的公司,它的增长弹性明显偏低。豆包在推出付费订阅后月活下降610万,一个重要的背景音是:当模型的核心价值仍停留在免费聊天,消费者对“为什么要付钱”的疑问很难被打消。

Anthropic近期呼吁全球放缓AI开发,警告AI“自我改进”风险,这从侧面反映了Coding能力的指数级进化已经让部分前沿机构感到不安。一旦模型开始闭环优化自己的代码,人类评估体系可能彻底失效。
但这轮估值浪潮的吊诡之处也在这里。资本乐于为“能写代码的AI”开出高价,并不因为它相信AGI即将到来,而是因为它终于找到了一个眼见为实的商业模式。代码是数字世界的施工队,谁掌握了最强的施工队,谁就能参与所有基建——这个叙事比任何技术愿景都更有说服力。
将一切估值压在Coding这根绳上,风险同样明显。首先,编程领域的基准测试正在快速饱和,当多个模型都宣称SOTA时,边际差异对用户的价值感会急剧衰减。其次,代码生成的质量评估远比选择题复杂,“幻觉”在生产环境中的破坏性是指数级的,企业客户大规模采用仍需时间。
但无论如何,2026年的这场定价革命已经给行业写下一条规则:别再谈概念,拿代码说话。当一个模型能让开发商少雇两个人,它的价值就是那两个工程师的年薪——资本市场喜欢这种简单的算术。
今日一句
当大模型的竞赛从聊天窗口转向代码仓库,每一个估值数字背后,其实都是对“AI能替人干什么”这一终极问题的竞价。
互动问题
你愿意为“会写代码的AI”每月付多少钱?理由是什么?
夜雨聆风