中国AI全球前5!阿里新模型11小时写完APP,免费就能玩

2026年6月5日

6月2日，阿里通义千问团队发了一款新模型——Qwen3.7-Plus。这款多模态智能体一上线，就在全球视觉大模型权威榜单Vision Arena中杀入前五，中国大陆排名第一。

官方对它的定位只有一句话：「一个模型，能看、能想、能写代码、能行动。」

听起来像营销话术？他们直接甩出了两个硬核Demo，让人看完直呼「这AI真能干活了」。

──────────────────

11小时，从零写完一个英语学习APP

Qwen官方博客披露了一个惊人的演示：基于Qwen3.7-Plus构建的Hybrid-Agent系统，连续稳定运行11小时以上，自动完成了一款英语单词学习App的完整研发闭环。

细节更是硬核：生成代码超过10000行，触发Agent调用超过1000次，覆盖了需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI自动化测试、多场景并行测试、产品说明自动更新和版本迭代——一整套流程，全部由AI自主完成。

这个案例的关键不在于「写了多少代码」，而在于链路足够长。真实的软件任务不是一次生成代码就结束了，还要安装、运行、测试、改Bug、再验证。Qwen3.7-Plus证明了它能在长流程中不掉链子。

──────────────────

复刻炒股软件，还接入了真实行情API

另一个Demo更接地气：Hybrid-Agent系统自主复刻了macOS原生Stocks股市应用。

流程包括：交互原生应用并理解UI布局和功能细节，基于交互记录生成SwiftUI源码，接入LongBridge真实行情API获取实时市场数据，自动编译构建并启动复刻应用。

更厉害的是，模型自主执行了10项功能验证测试——实时行情加载、股票选择与切换、多周期视图切换、搜索过滤和详细数据面板展示——全部通过。

这意味着它不是生成一个静态界面就完事了，而是真正理解了一个行情App的结构、数据源和交互逻辑，然后做出了一个可以跑起来的桌面应用。

──────────────────

跑分有多猛？屏幕理解超GPT-5.4

光看Demo可能觉得是「精心挑选的」，但跑分不会说谎。来看几个关键成绩：

屏幕理解（ScreenSpot Pro）：79.0分，超过GPT-5.4（67.4）和Gemini 3.1 Pro（68.1）。这个指标被业内认为是「GUI Agent能否真正商用」的门槛——Qwen3.7-Plus是目前参测模型中的最高分。

移动端操控（AndroidWorld）：81.0分，同样超过Gemini 3.1 Pro（70.7）。图表识别（CharXiv）：85.9分，所有参测模型中最高。数学视觉推理（MathVision）：90.3分，接近GPT-5.4的91.0。

纯文本能力方面，官方表示「整体接近Max级别模型」。在终端编程测试（Terminal Bench 2.0）中得分70.3，超过DeepSeek-V4-Pro Max（67.9）。简单说：这个模型不只是会看图，写代码、推理、做任务都很能打。

──────────────────

怎么用？国内就能免费体验

Qwen3.7-Plus目前通过两个渠道开放：

阿里云百炼平台（bailian.console.aliyun.com）：适合开发者，支持API调用，即日起至7月2日推理后付费享8折优惠。兼容OpenAI标准协议，现有项目改一行代码就能接入。

Qwen Studio（chat.qwen.ai）：适合普通用户体验，直接在网页端对话就能感受它的多模态能力。上传一张界面截图让它分析，给它一个设计稿让它生成代码，或者直接让它帮你操作网页——都能玩。

不过要注意，Qwen3.7-Plus目前仅提供API调用，不开源权重。这意味着个人开发者可以通过百炼平台低成本接入，但如果你是想本地部署的话，得等等看后续会不会开源。

──────────────────

一个小观察：国内AI的「军备竞赛」越来越有意思了

就在Qwen3.7-Plus发布前一天，MiniMax刚刚推出了新一代开源模型M3，同样主打编程和Agent能力。加上之前DeepSeek、月之暗面、智谱的轮番上新，国内大模型领域的竞争已经进入了「周更」节奏。

对普通用户来说，这是好事——模型越来越强，价格越来越低，能做的事情越来越多。以前觉得「AI自动写APP」是科幻，现在它真的发生了，而且你打开浏览器就能用。

所以问题来了：当AI能自己写代码、自己测试、自己部署的时候，我们普通人该做什么？不妨先用起来，看看它到底能做到什么程度。

──────────────────

你觉得AI能自动写APP这件事，对你的工作会有多大影响？来评论区聊聊。

每天早上更新，感兴趣的话点个在看吧