2026年6月5日
6月2日,阿里通义千问团队发了一款新模型——Qwen3.7-Plus。这款多模态智能体一上线,就在全球视觉大模型权威榜单Vision Arena中杀入前五,中国大陆排名第一。
官方对它的定位只有一句话:「一个模型,能看、能想、能写代码、能行动。」
听起来像营销话术?他们直接甩出了两个硬核Demo,让人看完直呼「这AI真能干活了」。
──────────────────
11小时,从零写完一个英语学习APP
Qwen官方博客披露了一个惊人的演示:基于Qwen3.7-Plus构建的Hybrid-Agent系统,连续稳定运行11小时以上,自动完成了一款英语单词学习App的完整研发闭环。
细节更是硬核:生成代码超过10000行,触发Agent调用超过1000次,覆盖了需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI自动化测试、多场景并行测试、产品说明自动更新和版本迭代——一整套流程,全部由AI自主完成。
这个案例的关键不在于「写了多少代码」,而在于链路足够长。真实的软件任务不是一次生成代码就结束了,还要安装、运行、测试、改Bug、再验证。Qwen3.7-Plus证明了它能在长流程中不掉链子。
──────────────────
复刻炒股软件,还接入了真实行情API
另一个Demo更接地气:Hybrid-Agent系统自主复刻了macOS原生Stocks股市应用。
流程包括:交互原生应用并理解UI布局和功能细节,基于交互记录生成SwiftUI源码,接入LongBridge真实行情API获取实时市场数据,自动编译构建并启动复刻应用。
更厉害的是,模型自主执行了10项功能验证测试——实时行情加载、股票选择与切换、多周期视图切换、搜索过滤和详细数据面板展示——全部通过。
这意味着它不是生成一个静态界面就完事了,而是真正理解了一个行情App的结构、数据源和交互逻辑,然后做出了一个可以跑起来的桌面应用。
──────────────────
跑分有多猛?屏幕理解超GPT-5.4
光看Demo可能觉得是「精心挑选的」,但跑分不会说谎。来看几个关键成绩:
屏幕理解(ScreenSpot Pro):79.0分,超过GPT-5.4(67.4)和Gemini 3.1 Pro(68.1)。这个指标被业内认为是「GUI Agent能否真正商用」的门槛——Qwen3.7-Plus是目前参测模型中的最高分。
移动端操控(AndroidWorld):81.0分,同样超过Gemini 3.1 Pro(70.7)。图表识别(CharXiv):85.9分,所有参测模型中最高。数学视觉推理(MathVision):90.3分,接近GPT-5.4的91.0。
纯文本能力方面,官方表示「整体接近Max级别模型」。在终端编程测试(Terminal Bench 2.0)中得分70.3,超过DeepSeek-V4-Pro Max(67.9)。简单说:这个模型不只是会看图,写代码、推理、做任务都很能打。
──────────────────
怎么用?国内就能免费体验
Qwen3.7-Plus目前通过两个渠道开放:
阿里云百炼平台(bailian.console.aliyun.com):适合开发者,支持API调用,即日起至7月2日推理后付费享8折优惠。兼容OpenAI标准协议,现有项目改一行代码就能接入。
Qwen Studio(chat.qwen.ai):适合普通用户体验,直接在网页端对话就能感受它的多模态能力。上传一张界面截图让它分析,给它一个设计稿让它生成代码,或者直接让它帮你操作网页——都能玩。
不过要注意,Qwen3.7-Plus目前仅提供API调用,不开源权重。这意味着个人开发者可以通过百炼平台低成本接入,但如果你是想本地部署的话,得等等看后续会不会开源。
──────────────────
一个小观察:国内AI的「军备竞赛」越来越有意思了
就在Qwen3.7-Plus发布前一天,MiniMax刚刚推出了新一代开源模型M3,同样主打编程和Agent能力。加上之前DeepSeek、月之暗面、智谱的轮番上新,国内大模型领域的竞争已经进入了「周更」节奏。
对普通用户来说,这是好事——模型越来越强,价格越来越低,能做的事情越来越多。以前觉得「AI自动写APP」是科幻,现在它真的发生了,而且你打开浏览器就能用。
所以问题来了:当AI能自己写代码、自己测试、自己部署的时候,我们普通人该做什么?不妨先用起来,看看它到底能做到什么程度。
──────────────────
你觉得AI能自动写APP这件事,对你的工作会有多大影响?来评论区聊聊。
每天早上更新,感兴趣的话点个在看吧
夜雨聆风