全球第二大AI编程模型,不是Claude,是一个中国模型

今天阿里云发了一条状态，全球第二。

不是夸出来的，是跑分跑出来的。Qwen3.7-Max在Code Arena上得分1541，仅次于Claude。全球第二。

看到这个结果的时候，我愣了几秒。不是因为它不够好，恰恰相反——它太好了，好到有点不真实。毕竟在我们的认知里，AI编程模型的王座，长期被Anthropic的Claude和OpenAI的GPT系列把持，偶尔有个新玩家冒头，也很难真正撼动第一名的位置。现在排在第二的是一个来自中国的开源模型，而且是中国最熟悉的那个名字——通义千问。这个感觉很奇怪，就像你看惯了NBA排行榜，突然发现第二名是一个你从小看他打球长大的本土球员。

先把这个跑分说清楚。

Code Arena不是一个野鸡排行榜。它是专门给AI编程模型打分的竞技场，题目覆盖代码补全、代码审查、bug修复、架构设计，模拟的都是真实开发场景。模型看不到题目，看不到测试用例，只能凭自己的能力硬解。每一道题都有明确的评分标准，最终得分是所有题目的综合。分数够不够真，上榜的模型自己知道，开发者也知道。所以Code Arena的排名在AI编程圈里有参考价值，不是一个营销数字。

Qwen3.7-Max拿到1541分，差Claude多少，官方没公布具体的差距数字，但"仅次于Claude"这个描述本身就说明了很多问题。在这个榜单上，GPT-5系列、Grok系列、各路开源模型都在争第三到第十的位置，Claude和Qwen3.7-Max已经把第二名和第一名之间的距离压缩到了一个可以讨论的范围内。这个局面的出现，比排名本身更值得聊。

光排名靠前还不够，真正让我多看了两眼的是它的几个具体数字。

可运行35小时的长任务。1000次以上的工具调用。数小时内交付原本需要两周工作量的项目。

这三个数字放在一起，说的是同一件事：这不是一个考试型选手，是一个能下火线的选手。

35小时任务意味着什么？意味着它可以跑通一个完整的开发流程。项目立项、需求分析、代码编写、测试调试、部署上线——这套流程在传统开发里需要几天到几周，Qwen3.7-Max可以连续跑35小时不中断。这不是简单的一问一答，是持续推理、持续决策、持续修正的能力。对AI编程模型来说，能跑长任务是一个门槛，跨不过去的模型只能做辅助工具，跨过去了才有可能成为真正的开发助手。

1000次工具调用是另一个门槛。真实的开发过程中，AI需要调用搜索引擎查文档，需要读写本地文件，需要执行命令行，需要调用各种API。这些动作加起来叫"工具调用"，大多数AI编程模型在这方面的能力是有限的——调用几次就出错，或者干脆不支持。但1000次以上的工具调用意味着Qwen3.7-Max可以自主完成一整套开发工作流，不需要人类在旁边盯着每一个步骤。

数小时内交付两周工作量，这个数字听着有点吓人。如果前两条都成立，这个结果就不是吹牛，而是顺理成章。35小时长任务、1000次工具调用，这两个能力加在一起，再加上模型本身的代码理解能力，让"两周到几小时"变成了一个可信的预期。当然，真实项目的复杂度会让这个数字打折，但方向是对的。

Qwen3.7-Max在5月25日还同步上线了隐式缓存功能。自动启用，不需要任何设置，开箱即用。缓存的作用是让重复调用变快变便宜——同一个问题问两次，第二次直接走缓存，不消耗算力。对于需要频繁调用的开发场景来说，这个功能直接影响使用成本。官方说需要更高命中率可以用显式缓存，也就是手动指定哪些内容需要缓存，这是面向专业用户的精细控制。

说完这些参数，顺着聊一个更远的话题。

很多人看到"中国模型"四个字，会习惯性地问一句：这是开源的还是闭源的？Qwen从一开始就走的是开源路线，Qwen3.7-Max也不例外。这意味着任何人都可以去下载、部署、改造，不需要申请，不需要付费，不像Claude或者GPT系列那样只能调用别人的API。这个区别在实际使用里会变成一个非常具体的考量：如果你有自己的服务器、有自己的代码库、有自己的保密需求，开源模型是可以私有部署的，闭源模型再怎么强，你的数据也得先发给别人的服务器。安全性这件事，在企业场景里从来不是可选项，而是必选项。

开源还有一个更远的意义。Claude和GPT-5系列现在确实强，但它们的强是建立在不公开模型架构的前提上的。外界不知道它们的训练数据，不知道内部的实现细节，只能相信官方发布的结果。开源模型不一样，代码和能力是透明的，开发者可以验证，可以改进，可以在它的基础上继续做自己的产品。这种透明度在长期竞争里是一张牌，关键时刻可能比跑分更有用。而且开源意味着全球的开发者和企业都可以参与改进，这不是一个小数目。中国、美国、欧洲，任何一个有想法的团队都可以拿Qwen的底子做自己的应用，这个生态是闭源模型很难建立起来的。

现在全球AI编程模型的竞争格局大概是这样的：Claude第一，Qwen3.7-Max第二，第三名之后竞争激烈，OpenAI的GPT-5.6下个月发布可能会重新洗牌，苹果在用1.2T参数的Google大模型改造下一代Siri，xAI的Grok系列在追赶，DeepSeek在持续降价抢占市场。这不是一个稳定的市场，每个月都在变化。但有一点是确定的：开源模型的追赶速度比任何人预期的都快。三年前没人会想到中国模型能站上第二，现在它就在那里，这不是运气，是积累。

对于写代码的人来说，这是一件好事。

模型越多，竞争越充分，价格会往下走，质量会往上走。Claude有压力了，GPT有压力了，这才会逼出更强的产品。而且开源意味着更多选择。不是所有人都愿意每个月为大模型付20美元，也不是所有公司都愿意把代码发给第三方服务器处理。Qwen给了一个不需要妥协的选项——你可以免费用它，可以私有部署它，可以用它改造成自己的产品。这个选项以前不存在，现在存在了。

再往大了说一点。

这次Qwen3.7-Max发布的时间节点，刚好是阿里云CTO李飞飞在Qwen Conference 2026上阐述"从云原生到智能体原生"转型的时间点。云原生是过去十年云计算的主题，Docker、Kubernetes、微服务，这些概念改变了软件部署的方式。现在阿里云在说"智能体原生"，意思是下一代的软件架构要以AI智能体为核心来设计。模型是智能体的大脑，云是智能体的舞台，工具和服务是智能体的四肢，规模是智能体的体力。Qwen3.7-Max就是这个转型里最直接的产品证明——它不是一个聊天机器人，是一个能干活的智能体。

所以回到那条状态本身。2027个浏览，48个赞，11个转发。不算爆款，但在AI圈子里已经算热闹了。这个数字本身也在说明一件事：大家开始习惯了，习惯中国模型站上世界舞台，习惯通义千问出现在和Claude并排的位置。习惯了之后，下一步就是用起来。

第二名从来不是终局，但第二名意味着你已经进入了那间屋子里讨论的行列。接下来的问题是：能不能坐稳。

Leo，独立开发者，专注历史文学、个人成长、编程实践与生活记录分享；AI爱好者，AI绘画，AI编程、相互交流学习。

如果有帮助请点赞，打赏，在看，转发~

👇👇关注我👇👇

和我一起成长