就在2026年6月2日,阿里通义实验室正式发布了Qwen3.7系列的最新多模态旗舰——Qwen3.7-Plus。如果说之前的模型是“最强大脑”,那么Qwen3.7-Plus就是给这个大脑装上了“眼睛”和“双手”。
它不仅在全球编程盲测中拿下国产第一,更实现了从“纯文本思考”到“视觉-语言统一智能体”的关键跨越。今天,我们就来深度剖析这款国产AI新标杆,并手把手教你如何将它融入你的工作流。

1. 核心定位:从“能想”到“能看、能动手”
Qwen3.7-Plus的核心定位非常明确:视觉与语言统一的智能体基座。
它不再局限于文本和代码的处理,而是全面升级了视觉理解与推理能力。官方将其概括为“能看、能想、能动手”。这意味着,它不仅能理解文字指令,还能看懂图片、视频、屏幕截图甚至复杂的网页界面,并基于这些视觉信息进行逻辑推理,最终调用工具或生成代码来完成任务。
在刚刚公布的Vision Arena榜单中,Qwen3.7-Plus助力阿里冲入全球前5、中国第1。而在纯文本和编码能力上,它依然保持了Max级别的顶尖水准,在SWE-bench等权威编程测试中表现卓越,是名副其实的“全能选手”。
2. 技术突破:全域思考模式
Qwen3.7-Plus之所以强大,离不开其底层架构的代际升级。
全域思考模式(All-field Thinking):这是Qwen3.7系列最大的技术突破。它首次实现了文本、图像、代码在单一Transformer架构下的统一推理链。简单来说,它在处理任务时,不再是割裂地看文字或图片,而是像人类一样,将视觉信息和文本逻辑融会贯通进行思考。
顶尖的Agentic Coding能力:继承了Qwen3.7-Max的强大基因,Qwen3.7-Plus在编程智能体方面表现惊人。在实测中,基于该模型构建的智能体曾连续自主运行11小时,从零开始完成了一款英语单词学习App的完整研发闭环(包含需求文档、代码编写、自动部署、测试及迭代),累计生成超10000行代码。
跨模态任务处理:无论是解析复杂的地铁线路图,还是根据一张微信截图自主复刻出网页版聊天界面,Qwen3.7-Plus都展现出了极强的“视觉驱动执行”能力。
3. 应用场景:它能为我们做什么?
对于普通开发者和内容创作者来说,Qwen3.7-Plus的能力可以直接转化为生产力:
GUI自动化操作:它能看懂macOS或Windows的桌面应用界面。比如,你可以让它自主操作原生的股票软件,理解UI布局,自动接入行情API,甚至复刻出一个带有实时数据的看盘软件。
视觉驱动的代码生成:扔给它一张设计稿截图或手绘草图,它能直接生成对应的HTML/CSS/SwiftUI代码,大幅缩短前端开发时间。
复杂流程的端到端执行:在浏览器中,它可以自动完成云服务器采购、运维链路闭环等长流程任务,真正充当你的“超级数字员工”。
4. 结语
Qwen3.7-Plus的发布,标志着国产大模型在“智能体(Agent)”赛道上迈出了坚实的一步。它不再仅仅是一个聊天机器人,而是一个能看懂世界、能自主规划并执行复杂任务的智能基座。
无论你是需要高效编程的开发者,还是希望利用AI自动化办公流程的职场人,Qwen3.7-Plus都提供了一个极具性价比且强大的新选择。现在,就快去试试吧!
夜雨聆风