不是夸出来的,是跑分跑出来的。Qwen3.7-Max在Code Arena上得分1541,仅次于Claude。全球第二。
看到这个结果的时候,我愣了几秒。不是因为它不够好,恰恰相反——它太好了,好到有点不真实。毕竟在我们的认知里,AI编程模型的王座,长期被Anthropic的Claude和OpenAI的GPT系列把持,偶尔有个新玩家冒头,也很难真正撼动第一名的位置。现在排在第二的是一个来自中国的开源模型,而且是中国最熟悉的那个名字——通义千问。这个感觉很奇怪,就像你看惯了NBA排行榜,突然发现第二名是一个你从小看他打球长大的本土球员。
先把这个跑分说清楚。
Code Arena不是一个野鸡排行榜。它是专门给AI编程模型打分的竞技场,题目覆盖代码补全、代码审查、bug修复、架构设计,模拟的都是真实开发场景。模型看不到题目,看不到测试用例,只能凭自己的能力硬解。每一道题都有明确的评分标准,最终得分是所有题目的综合。分数够不够真,上榜的模型自己知道,开发者也知道。所以Code Arena的排名在AI编程圈里有参考价值,不是一个营销数字。
Qwen3.7-Max拿到1541分,差Claude多少,官方没公布具体的差距数字,但"仅次于Claude"这个描述本身就说明了很多问题。在这个榜单上,GPT-5系列、Grok系列、各路开源模型都在争第三到第十的位置,Claude和Qwen3.7-Max已经把第二名和第一名之间的距离压缩到了一个可以讨论的范围内。这个局面的出现,比排名本身更值得聊。
光排名靠前还不够,真正让我多看了两眼的是它的几个具体数字。
可运行35小时的长任务。1000次以上的工具调用。数小时内交付原本需要两周工作量的项目。
这三个数字放在一起,说的是同一件事:这不是一个考试型选手,是一个能下火线的选手。
35小时任务意味着什么?意味着它可以跑通一个完整的开发流程。项目立项、需求分析、代码编写、测试调试、部署上线——这套流程在传统开发里需要几天到几周,Qwen3.7-Max可以连续跑35小时不中断。这不是简单的一问一答,是持续推理、持续决策、持续修正的能力。对AI编程模型来说,能跑长任务是一个门槛,跨不过去的模型只能做辅助工具,跨过去了才有可能成为真正的开发助手。
1000次工具调用是另一个门槛。真实的开发过程中,AI需要调用搜索引擎查文档,需要读写本地文件,需要执行命令行,需要调用各种API。这些动作加起来叫"工具调用",大多数AI编程模型在这方面的能力是有限的——调用几次就出错,或者干脆不支持。但1000次以上的工具调用意味着Qwen3.7-Max可以自主完成一整套开发工作流,不需要人类在旁边盯着每一个步骤。
数小时内交付两周工作量,这个数字听着有点吓人。如果前两条都成立,这个结果就不是吹牛,而是顺理成章。35小时长任务、1000次工具调用,这两个能力加在一起,再加上模型本身的代码理解能力,让"两周到几小时"变成了一个可信的预期。当然,真实项目的复杂度会让这个数字打折,但方向是对的。
Qwen3.7-Max在5月25日还同步上线了隐式缓存功能。自动启用,不需要任何设置,开箱即用。缓存的作用是让重复调用变快变便宜——同一个问题问两次,第二次直接走缓存,不消耗算力。对于需要频繁调用的开发场景来说,这个功能直接影响使用成本。官方说需要更高命中率可以用显式缓存,也就是手动指定哪些内容需要缓存,这是面向专业用户的精细控制。
说完这些参数,顺着聊一个更远的话题。
很多人看到"中国模型"四个字,会习惯性地问一句:这是开源的还是闭源的?Qwen从一开始就走的是开源路线,Qwen3.7-Max也不例外。这意味着任何人都可以去下载、部署、改造,不需要申请,不需要付费,不像Claude或者GPT系列那样只能调用别人的API。这个区别在实际使用里会变成一个非常具体的考量:如果你有自己的服务器、有自己的代码库、有自己的保密需求,开源模型是可以私有部署的,闭源模型再怎么强,你的数据也得先发给别人的服务器。安全性这件事,在企业场景里从来不是可选项,而是必选项。
开源还有一个更远的意义。Claude和GPT-5系列现在确实强,但它们的强是建立在不公开模型架构的前提上的。外界不知道它们的训练数据,不知道内部的实现细节,只能相信官方发布的结果。开源模型不一样,代码和能力是透明的,开发者可以验证,可以改进,可以在它的基础上继续做自己的产品。这种透明度在长期竞争里是一张牌,关键时刻可能比跑分更有用。而且开源意味着全球的开发者和企业都可以参与改进,这不是一个小数目。中国、美国、欧洲,任何一个有想法的团队都可以拿Qwen的底子做自己的应用,这个生态是闭源模型很难建立起来的。
现在全球AI编程模型的竞争格局大概是这样的:Claude第一,Qwen3.7-Max第二,第三名之后竞争激烈,OpenAI的GPT-5.6下个月发布可能会重新洗牌,苹果在用1.2T参数的Google大模型改造下一代Siri,xAI的Grok系列在追赶,DeepSeek在持续降价抢占市场。这不是一个稳定的市场,每个月都在变化。但有一点是确定的:开源模型的追赶速度比任何人预期的都快。三年前没人会想到中国模型能站上第二,现在它就在那里,这不是运气,是积累。
对于写代码的人来说,这是一件好事。
模型越多,竞争越充分,价格会往下走,质量会往上走。Claude有压力了,GPT有压力了,这才会逼出更强的产品。而且开源意味着更多选择。不是所有人都愿意每个月为大模型付20美元,也不是所有公司都愿意把代码发给第三方服务器处理。Qwen给了一个不需要妥协的选项——你可以免费用它,可以私有部署它,可以用它改造成自己的产品。这个选项以前不存在,现在存在了。

再往大了说一点。
这次Qwen3.7-Max发布的时间节点,刚好是阿里云CTO李飞飞在Qwen Conference 2026上阐述"从云原生到智能体原生"转型的时间点。云原生是过去十年云计算的主题,Docker、Kubernetes、微服务,这些概念改变了软件部署的方式。现在阿里云在说"智能体原生",意思是下一代的软件架构要以AI智能体为核心来设计。模型是智能体的大脑,云是智能体的舞台,工具和服务是智能体的四肢,规模是智能体的体力。Qwen3.7-Max就是这个转型里最直接的产品证明——它不是一个聊天机器人,是一个能干活的智能体。
所以回到那条状态本身。2027个浏览,48个赞,11个转发。不算爆款,但在AI圈子里已经算热闹了。这个数字本身也在说明一件事:大家开始习惯了,习惯中国模型站上世界舞台,习惯通义千问出现在和Claude并排的位置。习惯了之后,下一步就是用起来。
第二名从来不是终局,但第二名意味着你已经进入了那间屋子里讨论的行列。接下来的问题是:能不能坐稳。
夜雨聆风