大家好啊,我是专注AI智能体的零零~
就在昨天,全球权威编程能力评测平台Code Arena最新榜单出炉——阿里通义千问Qwen3.7-Max以1541分的硬核成绩,强势登顶全球编程能力第二,仅次于Claude系列,直接把GPT-5.5、Gemini 3.5 Flash、GLM-5.1等一众国际顶流模型甩在身后。
国产AI,第一次在这个位置上站稳了脚跟。
01 Qwen3.7-Max有多强?
早在5月20日的阿里云峰会上,阿里就正式发布了新一代千问旗舰模型Qwen3.7-Max。在第三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一,全球第五。
到了5月26日,Code Arena编程专项榜单更是把它推上了新高度——全球第二、国产断层第一,成为榜单中唯一突破1540分的国产大模型,终结了Claude系列长期霸榜前两位的局面。
更让人震撼的是它的“动手能力”。Qwen3.7-Max可全自主完成35小时、超1000次工具调用的超长程智能体复杂任务。在一个模型训练时从未接触过的全新芯片平台上,它仅凭一份任务说明书,在没有人类干预、纠错的情况下自主完成了35小时的超长程任务,通过自主编程和超1000次工具调用,将芯片推理速度较官方原版本提升了10倍。
近三个月内,千问旗舰大模型已稳定迭代了3.5、3.6、3.7三个版本,阿里大模型研发明显在加速。

02 从“说得好”到“做得到”,意味着什么?
阿里云通义大模型事业部负责人周靖人在峰会上说了一句话:“大模型正在经历一次核心范式转移——从对齐人类偏好,到对齐任务目标。过去追求的是模型‘说得好’,现在要求模型‘做得到’。”
这听起来有点专业,但翻译过来就一句话:以前的AI是“能聊”,现在的AI是“能干”。
Qwen3.7-Max面向智能体(Agent)全新设计,实现了从“说得好”到“做得到”的范式跃迁。在编程理解与生成、智能体协同、长程任务执行等核心维度上实现了系统性跃升。它可在数小时内独立完成原本需专业团队耗时两周的复杂项目端到端交付,显著提升办公自动化效率与企业级生产力。
编程能力已成为衡量大模型综合智能水平的关键维度。Code Arena由国际知名第三方大模型盲测平台LMArena发起,不依赖静态代码片段生成或标准算法题求解,而是由一线开发者实际命题,要求模型从零开始构建功能完整、可交互运行的Web应用程序,经匿名处理后由真实用户进行两两对比投票。因其高度贴近工程实践、全程脱离厂商干预,Code Arena被广泛视为全球公信力最强的AI编程能力评测之一。

03 普通人怎么用上这款“国产最强”?
Qwen3.7-Max已于5月22日登陆阿里云百炼平台,用户可直接调用API。模型输入价格每百万Tokens 12元,输出价格每百万Tokens 36元。同时,在通义千问App(6.9.7以上版本)、PC端和网页端均可免费使用。
这意味着你不需要翻墙、不需要花钱,就能用上全球第一梯队的国产AI。
利用其超长上下文(百万级Tokens)和编程能力,你可以做很多以前门槛极高的事:上传一份长达几百页的行业报告,让它总结出核心要点;让它帮你排查复杂代码中的bug;或者让它从零开始搭一个完整的数据处理流程。
04 普通人现在该怎么做?
国产模型已经做到全球顶尖,而且对国内用户完全免费开放。机会窗口就在眼前,现在正是从“听说AI”切换到“用AI提效”的转折点。
建议三步走:第一步,打开“通义千问”或“豆包”App,从你最头疼的日常任务开始——写周报、读合同、做PPT。第二步,遇到不懂的,直接问AI“怎么用你更高效”,它会给你建议。第三步,每天坚持用,一个月后你会发现工作节奏快了不少。
AI技术迭代周期已普遍缩短至3个月以内,推理成本也在大幅下降。你还想等到AI追上你的时候再学?
你用过通义千问或其他国产AI吗?感觉怎么样?
评论区聊聊你的使用体验。如果这篇文章让你对国产AI更有信心,点个赞👍,让更多人看到国产科技的力量。
想系统学习AI工具,搞副业、提效率?我这边有200+各行各业工作流和从0到1视频课程,加我微信发你第一节免费课。
📌 微信:AI-00-260214(备注「学习智能体」)
如果你也对AI智能体感兴趣,欢迎加我,一起交流学习AI智能体(VX:AI-00-260214)备注「学习智能体」

夜雨聆风