11 小时,AI 自己开发了一款 App

2026 年 6 月 2 日凌晨,阿里通义千问发了一款新模型 Qwen3.7-Plus。

听起来就是一次常规升级。但有个数字,让你没法直接划走——

基于这款模型构建的 Hybrid-Agent 系统,连续稳定运行了 11 个小时,自主完成了一款英语单词学习 App 的完整研发闭环,累计生成超过 1 万行代码,触发了 1000 多次 API 调用。

整个过程,没有人类插手。需求文档自己写,代码自己写,自动化部署自己跑,测试用例自己造,GUI 测试自己执行,版本迭代自己迭代。

说真的,这不是"AI 帮你写代码"了。这是"AI 把开发团队整个替代了"。

跑分,这次真超了

Qwen3.7-Plus 在 Vision Arena 全球视觉大模型榜单上,跻身全球前五、中国第一。

但榜单这事咱们听得多了,虚虚实实。直接看硬数据——它在多模态推理、视觉 Agent 编程、通用视觉理解三个维度上,有一批指标超过了 GPT-5.4(xhigh)和 Gemini-3.1 Pro:

评测项	Qwen3.7-Plus	GPT-5.4(xhigh)	Gemini 3.1 Pro
BabyVision(多模态推理)	70.4	53.1	55.9
MathVision	90.3	91.0	87.4
ScreenSpot Pro(屏幕理解)	79.0	67.4	68.1
AndroidWorld(移动端操控)	81.0	—	70.7
RealWorldQA(真实场景)	86.9	83.8	—

特别值得说的是 ScreenSpot Pro——这是考模型能不能"看屏幕、操作 GUI"的能力。Qwen3.7-Plus 拿了 79.0,比 GPT-5.4 高出 11.6 分。这不是擦边球的领先,是实打实的代差。

说真的,看到这里我愣了一下。国产模型在多模态上,第一次有这种正面对标的底气。

11 小时,到底发生了什么

跑分是表观,我们看实战。

阿里让基于 Qwen3.7-Plus 的 Hybrid-Agent 系统,从零开始做一款英语单词学习 App,流程覆盖真实软件开发的全生命周期:

需求分析——产品文档自己写;
代码编写——自动生成超 1 万行代码;
自动部署——安装、构建、配置全自动;
测试用例创建——自动构造边界条件;
GUI 自动化测试——多场景并行跑;
多场景验证——功能、性能、UI 全维度;
产品说明更新——自动写文档;
版本迭代——发现 bug 自己改,改完自己验。

整个流程跑了 11 个小时,没崩,没卡,最后交付了一款类似多邻国/百词斩的应用——单词本、单词消消乐、每日背诵、限时挑战一应俱全,UI 完整,逻辑能跑通。

更关键的是,这个过程中,模型展现出了自我修正的能力:遇到 bug 自己调,调完自己验,验不通过再调——这种"试错-反馈-迭代"的循环,以前叫"工程师素养"。

还有几个炸裂的能力

Qwen3.7-Plus 不只是能开发 App。它有几种能力,如果你不亲眼看到,可能很难相信 2026 年的多模态模型已经走到这一步。

1. 找不同:把视觉问题变成代码求解

模型先把左右两张图的几何结构提取出来,转成可计算的逻辑,然后调用代码解释器,自己写代码、自己执行——差异图自动标注,经过几轮迭代最终定位 5 处不同点。

不是"看图猜",是视觉感知 → 空间建模 → 代码求解 → 结果校验的完整闭环。

2. 复刻 macOS 原生 Stocks 应用

模型自主交互 Stocks 原生应用,理解 UI 布局,自动生成 SwiftUI 源码,接入 LongBridge 真实行情 API,自动编译构建,然后自主执行 10 项功能验证测试并全部通过。

最终交付的应用,完整复现了原生 Stocks 的暗色主题、分栏布局、实时行情数据和完整交互体验。

3. 查植物病害:多模态 + 联网搜索交叉验证

模型先观察叶片上的棕褐色斑块、黄化区域和病斑边缘形态,初步判断病害类型。然后调起网页搜索,7 次检索,综合图像观察、外部资料、特征对比,最终给出判断,还整理成结构化表格。

4. 看地铁线路图,规划换乘路线

模型在密集交错的线路中定位起点和终点,识别不同线路的颜色和换乘关系,沿线路逐站追踪,在需要换乘的位置切换线路。这不是 RAG,这是真正的视觉空间推理。

多模态竞争的拐点:从"看得准"到"做得成"

回过头看 Qwen3.7-Plus 这个事件,意义不在"它又发了多模态"。

意义在于:多模态模型的竞争重点,正在从"看得准"转向"做得成"。

过去两年,大家卷的是"看图说话"的准确率——OCR 多少分、文档解析多少分。Qwen3.7-Plus 在 Vision Arena 拿第五,这件事其实没那么重要。重要的是它把"看、想、写、做、验"五个环节,整合进同一个智能体工作流。

这意味着什么?意味着以前是"AI 看完告诉你答案",现在是 "AI 看完直接交付结果"。

对开发者和企业来说,这个转变很关键:

以前调 AI,流程是"AI 出方案 → 人写代码 → 人测试";
现在调 AI,流程是"AI 出方案 + 写代码 + 部署 + 测试 + 迭代"。

人力从"操作员"变成了"验收员"。

但也别太兴奋

讲真,我看官方案例的时候,脑子里一直在转两件事。

第一,工程稳定性。官方 demo 跑了 11 小时,完美收工。但真实生产环境里,token 消耗、API 报错、上下文窗口爆炸、模型"幻觉"——这些坑,Hybrid-Agent 扛得住吗?目前还没有第三方独立测试。

第二,场景泛化。"开发一款英语单词 App"和"开发一款股票交易 App"难度天差地别。前者容错率高,后者一分钱都不能错。Qwen3.7-Plus 在高风险、对准确性要求极高的场景里表现如何,还有待时间检验。

换句话说:Qwen3.7-Plus 证明了这条路走得通,但"走得通"和"走得稳"之间,还有距离。

3 件事值得关注

第一,API 定价会不会打。Qwen3.7-Plus 当前 API 定价输入 0.4 美元/百万 token、输出 1.6 美元/百万 token,和 Claude/GPT 相比不算贵。但 Agent 类应用的 token 消耗是普通对话的 5-10 倍,真实账单才是试金石。

第二,生态会不会跟上。阿里已经支持 OpenAI 兼容 API 和 Anthropic 协议,Claude Code、OpenClaw、Qwen Code 都能直接调用,门槛低得离谱。接下来要看独立开发者能不能基于这个底座跑出杀手级应用。

第三,中美模型差距是不是真的在缩小。Qwen3.7-Plus 在多模态部分跑分超过 GPT-5.4 是一个点,但 GPT-5.5 也在路上,Claude Opus 4.7 已经更新一轮。单点领先能不能变成持续领先,还得观察。

说真的,这次最让我意外的不是 Qwen3.7-Plus 跑分超过了 GPT-5.4,而是它真的跑完了 11 个小时没崩。
过去两三年,我们见过了太多"demo 神器,生产废物"的 Agent。能在真实软件工程链条上持续运行 11 小时、自我迭代、自我验证这件事,比任何榜单都更有说服力。
国产 AI 第一次让人觉得:它不是在追赶,而是正在定义一个全新的范式。
这个范式的名字,叫"做得成"。

觉得有用就转给身边还在用旧模型选股、还在为 AI Agent 写 PPT 演示稿的同事。

评论区聊聊:你愿意让 AI 自主开发你公司的内部工具吗?这种"自主 11 小时"的模型,你现在敢放心用吗?

点个关注,后续每条 AI 大事第一时间推给你。