Coding改写AI估值逻辑

中国大模型公司的估值表，正在被一个新变量推倒重写。不是参数，不是月活，是Coding能力。

DeepSeek正在洽谈国内AI公司史上最大单笔融资70亿美元，估值或达590亿美元；月之暗面在Kimi K2.5把Coding能力拉满之后，ARR 3个月冲到2亿美元，估值飙到200亿美元；智谱GLM-5拿下开源模型榜首，港股市值一度触及8800亿港元。而另一边，那些Coding短板的玩家，即使月活依然庞大，资本市场给的定价却开始犹豫。

Coding成了新标尺

资本市场对AI公司的判断，过去两年经历了多轮切换。先比参数，再比多模态，接着看C端日活。但现在，一个更粗糙却更真实的标尺出现了：你的模型能不能写好代码。

这个变化的底层逻辑很直白。Coding能力是离生产力最近的指标。写诗、画画、聊天，固然能吸引用户，但企业客户买单时，问的第一句话往往是：“它能帮我程序员省多少时间？”当一家公司可以清晰证明自己的模型在SWE-bench等权威编码基准上跑进前列，它拿到的就不是“体验式预算”，而是“替代性预算”——后者没有天花板。

雷峰网拿到的一组数据非常说明问题：月之暗面在Kimi K2.5版本后，20天收入超过2025年全年；智谱MaaS平台ARR同比暴涨60倍。这些爆发式增长的时间点，都与各自模型的Coding能力突破高度重合。

从Demo到ARR，代码是那条最短的桥

AI视频、AI搜索、AI社交……几乎所有大模型公司都在找场景，但Coding直接打通了从技术Demo到经常性收入（ARR）的路径。它不需要漫长的用户教育，因为开发者本身就是第一批愿意付费的群体。

这背后的商业逻辑很残酷：Coding能力强的模型，可以同时赚两份钱。一份来自订阅个人开发者或企业开发者工具；另一份来自API调用量，因为写代码是最高频的推理场景之一。一份来自月之暗面的内部数据显示，其API收入中，代码相关的调用占比已经超过40%。

更关键的是，Coding正在成为大模型能力的“元指标”。一个模型如果能稳定生成高质量代码，通常意味着它在逻辑推理、规划、长上下文理解上已经达到较高水平，这些能力会自然溢出到其他场景。于是，估值模型里的溢价项，从“可能做多模态”变成了“已经能用代码赚钱”。

慢一步的代价

但不是所有玩家都跟上了这个逻辑。MiniMax港股上市首日市值突破1000亿港元，但若对比Coding能力领先的公司，它的增长弹性明显偏低。豆包在推出付费订阅后月活下降610万，一个重要的背景音是：当模型的核心价值仍停留在免费聊天，消费者对“为什么要付钱”的疑问很难被打消。

Anthropic近期呼吁全球放缓AI开发，警告AI“自我改进”风险，这从侧面反映了Coding能力的指数级进化已经让部分前沿机构感到不安。一旦模型开始闭环优化自己的代码，人类评估体系可能彻底失效。

但这轮估值浪潮的吊诡之处也在这里。资本乐于为“能写代码的AI”开出高价，并不因为它相信AGI即将到来，而是因为它终于找到了一个眼见为实的商业模式。代码是数字世界的施工队，谁掌握了最强的施工队，谁就能参与所有基建——这个叙事比任何技术愿景都更有说服力。

冷静看待Coding霸权

将一切估值压在Coding这根绳上，风险同样明显。首先，编程领域的基准测试正在快速饱和，当多个模型都宣称SOTA时，边际差异对用户的价值感会急剧衰减。其次，代码生成的质量评估远比选择题复杂，“幻觉”在生产环境中的破坏性是指数级的，企业客户大规模采用仍需时间。

但无论如何，2026年的这场定价革命已经给行业写下一条规则：别再谈概念，拿代码说话。当一个模型能让开发商少雇两个人，它的价值就是那两个工程师的年薪——资本市场喜欢这种简单的算术。

今日一句

当大模型的竞赛从聊天窗口转向代码仓库，每一个估值数字背后，其实都是对“AI能替人干什么”这一终极问题的竞价。

互动问题

你愿意为“会写代码的AI”每月付多少钱？理由是什么？