11小时自主开发App!Qwen3.7-Plus能看懂屏幕、能写代码,还能自己干活!

就在2026年6月2日，阿里通义实验室正式发布了Qwen3.7系列的最新多模态旗舰——Qwen3.7-Plus。如果说之前的模型是“最强大脑”，那么Qwen3.7-Plus就是给这个大脑装上了“眼睛”和“双手”。

它不仅在全球编程盲测中拿下国产第一，更实现了从“纯文本思考”到“视觉-语言统一智能体”的关键跨越。今天，我们就来深度剖析这款国产AI新标杆，并手把手教你如何将它融入你的工作流。

1. 核心定位：从“能想”到“能看、能动手”

Qwen3.7-Plus的核心定位非常明确：视觉与语言统一的智能体基座。

它不再局限于文本和代码的处理，而是全面升级了视觉理解与推理能力。官方将其概括为“能看、能想、能动手”。这意味着，它不仅能理解文字指令，还能看懂图片、视频、屏幕截图甚至复杂的网页界面，并基于这些视觉信息进行逻辑推理，最终调用工具或生成代码来完成任务。

在刚刚公布的Vision Arena榜单中，Qwen3.7-Plus助力阿里冲入全球前5、中国第1。而在纯文本和编码能力上，它依然保持了Max级别的顶尖水准，在SWE-bench等权威编程测试中表现卓越，是名副其实的“全能选手”。

2. 技术突破：全域思考模式

Qwen3.7-Plus之所以强大，离不开其底层架构的代际升级。

全域思考模式（All-field Thinking）：这是Qwen3.7系列最大的技术突破。它首次实现了文本、图像、代码在单一Transformer架构下的统一推理链。简单来说，它在处理任务时，不再是割裂地看文字或图片，而是像人类一样，将视觉信息和文本逻辑融会贯通进行思考。
顶尖的Agentic Coding能力：继承了Qwen3.7-Max的强大基因，Qwen3.7-Plus在编程智能体方面表现惊人。在实测中，基于该模型构建的智能体曾连续自主运行11小时，从零开始完成了一款英语单词学习App的完整研发闭环（包含需求文档、代码编写、自动部署、测试及迭代），累计生成超10000行代码。
跨模态任务处理：无论是解析复杂的地铁线路图，还是根据一张微信截图自主复刻出网页版聊天界面，Qwen3.7-Plus都展现出了极强的“视觉驱动执行”能力。

3. 应用场景：它能为我们做什么？

对于普通开发者和内容创作者来说，Qwen3.7-Plus的能力可以直接转化为生产力：

GUI自动化操作：它能看懂macOS或Windows的桌面应用界面。比如，你可以让它自主操作原生的股票软件，理解UI布局，自动接入行情API，甚至复刻出一个带有实时数据的看盘软件。
视觉驱动的代码生成：扔给它一张设计稿截图或手绘草图，它能直接生成对应的HTML/CSS/SwiftUI代码，大幅缩短前端开发时间。
复杂流程的端到端执行：在浏览器中，它可以自动完成云服务器采购、运维链路闭环等长流程任务，真正充当你的“超级数字员工”。

4. 结语

Qwen3.7-Plus的发布，标志着国产大模型在“智能体（Agent）”赛道上迈出了坚实的一步。它不再仅仅是一个聊天机器人，而是一个能看懂世界、能自主规划并执行复杂任务的智能基座。

无论你是需要高效编程的开发者，还是希望利用AI自动化办公流程的职场人，Qwen3.7-Plus都提供了一个极具性价比且强大的新选择。现在，就快去试试吧！