乐于分享
好东西不私藏

通义实验室Qwen负责人揭秘:1份文档3小时交付双端App,但99%开发者根本用不上

通义实验室Qwen负责人揭秘:1份文档3小时交付双端App,但99%开发者根本用不上

最近,通义实验室公布了一项实验结果,在行业内炸出了一片讨论。

只给Qwen3.7-Max一份普通的产品调研文档,不给任何代码提示,不给任何界面设计稿,让模型自己理解、自己规划、自己动手。3小时后,iOS、Android和Web三端应用全部跑了起来。

这不是演示。这是隔离环境下的真实交付。

Qwen3.7-Max的负责人随后在公开演讲中承认:这样的能力,99%的开发者当下根本用不上。

这话听起来很凡尔赛,但仔细拆解背后的技术逻辑,你会发现这不是在凡尔赛——而是在陈述一个残酷的事实。


通义实验室和Efflora团队设计了这场实验,流程并不复杂,但每个环节都踩在了大模型能力的边界上。

第一阶段:文档解析与需求理解

实验只提供了一份产品调研文档,格式是常见的Word/PDF。文档里包含了目标用户描述、核心功能列表、竞品对比片段。Qwen3.7-Max接收到这份文档后,首先做的是语义解析——不是简单提取文字,而是把文档里的业务语言翻译成技术语言,把「用户需要一个能记账的应用」翻译成「需要本地存储+统计图表+多用户体系」这类具体的工程命题。

这个环节的难点在于:普通文档天然充满歧义,人类产品经理看了能脑补细节,但模型必须从模糊表述中做出合理假设。更关键的是,模型在这一步会主动识别文档中的隐含约束:性能要求、兼容性要求、安全性要求——这些在文档里经常是「不说但默认」的。模型需要靠对训练数据中大量软件工程案例的学习,把这些隐含约束挖掘出来。这一步的质量直接决定后续代码的可用性上限。

第二阶段:技术方案规划

理解需求之后,Qwen3.7-Max并没有直接开始写代码。它先花了相当一部分时间做技术方案规划:架构选型(React Native还是Flutter,iOS原生还是混合),目录结构怎么组织,状态管理用什么方案,接口协议怎么定义。

根据通义实验室后续披露的信息,模型在这一步会进行多次自我校验:如果发现多个技术路径,会先跑一个快速模拟,确认哪个方案在当前约束下最稳定。这一步对人类工程师来说是「经验直觉」,对Qwen3.7-Max来说,是长上下文推理能力的集中体现。

三端同时生成意味着iOS端、Android端和Web端的技术选型必须相互兼容——状态管理方案需要跨端一致,数据模型需要统一设计语言,API接口需要同时适配三端不同的调用习惯。任何一个平台的技术选型发生偏移,都会波及其他两端。Qwen3.7-Max之所以能在这个环节不出岔子,核心依赖是它能够在生成代码之前,先在「规划层」完成全局一致性校验。

第三阶段:跨端代码生成

正式生成代码时,模型需要同时处理三端:iOS的Swift代码、Android的Kotlin代码、Web端的TypeScript/React代码。三个平台的语法规范不同、组件体系不同、甚至连错误处理逻辑都不同。Qwen3.7-Max能够在生成过程中保持平台间逻辑一致性,这要求模型在极长的推理链条中始终维持对全局架构的记忆。

第四阶段:编译调试与自动修复

代码生成完成后,模型并没有停下来。它会自动触发编译流程,捕获编译错误,然后分析错误原因,在下一轮对话中针对性地修复。这个「生成→编译→修复」的循环,会持续到三端全部编译通过为止。

难点在于:有些编译错误是「级联」的——一个头文件的类型错误会导致下游十几个文件全部报编译失败。模型需要从纷繁复杂的错误信息中找出「根因」,而不是被表面错误牵着走。

最终的产出是:iOS安装包、Android APK,以及一个可以在线访问的Web应用。整个过程耗时约3小时,无人工介入代码层。


02 | Qwen3.7-Max凭什么能做到这件事

这场实验背后,Qwen3.7-Max的几项核心能力缺一不可。

百万级上下文窗口

Qwen3.7-Max的上下文长度支持到100万token。这个数字在当下并不是独家优势,但关键在于:这100万token不是拿来跑长对话用的,而是拿来跑「长任务」的。

当模型需要同时记住需求文档、生成的代码片段、各端平台的约束规则、以及历史调试记录时,普通模型的上下文很快就会溢出。Qwen3.7-Max的长上下文让模型可以在整个3小时任务周期内,始终持有完整的技术上下文,而不需要靠外部记忆体来续命。

思考模式与非思考模式双轨

Qwen3.7-Max支持「思考模式」和「非思考模式」两种推理路径。在需要深度规划和技术推演时,开启思考模式,模型会输出完整的推理链条;在需要快速执行标准化代码块时,切换到非思考模式,响应速度更快。

这一设计解决了Agent应用中常见的「速度与深度」矛盾:规划阶段用思考模式保证质量,执行阶段用非思考模式保证效率。两者并非替代关系,而是不同任务阶段的合理切换。

长周期任务自主执行能力

这是Qwen3.7-Max区别于前代模型最显著的能力提升。阿里云百炼平台的产品文档中明确写道:Qwen3.7-Max面向「编程、办公自动化与长周期任务自主执行」场景打造。

所谓「长周期任务」,不是指单次请求的响应时间,而是指模型能够在多轮交互中持续推进一个复杂目标,中途遇到错误能自主调整策略,不会因为一次失败就放弃整个任务。

编程与办公自动化的深度融合

从阿里云百炼平台的定价页面可以读到,Qwen3.7-Max的输出价格是输入价格的3倍(12元/百万token输入,36元/百万token输出),这个定价结构本身就反映了模型的能力定位:模型输出的代码和技术文档量远大于输入的指令量。

这是一个「劳动密集型」模型——它不是在回答问题,而是在交付成果。输出价格高于输入价格,这在问答类模型上是从未出现过的定价结构,却是任务型Agent模型的必然特征。


03 | 为什么99%的开发者用不上

99%这个数字,不是随口说的。以下是几个核心原因。

前置成本:token消耗远超预期

3小时的双端交付,听起来高效,但token消耗是巨大的。按照Qwen3.7-Max的定价(输入12元/百万token,输出36元/百万token),一个完整的双端App生成流程,涉及需求解析、技术方案、多轮代码生成、编译调试循环,总token消耗轻松突破数千万级别。仅输出token的费用就可能达到数百元——这还不包含模型思考过程中的中间推理token。

普通开发者在没有精确成本预估的情况下,一次冲动调用可能烧掉数百元而没有产出可用代码。

技术集成复杂度:Agent Pipeline需要专业工程能力

让Qwen3.7-Max生成代码只是第一步。要让模型真正「自主工作」,还需要搭建一套完整的Agent Pipeline:文档输入层、任务拆解层、代码生成层、编译验证层、产物交付层。这套工程架构的搭建和维护,本身就需要有经验的工程师来完成。

通义实验室在这场实验中,背后是整支工程团队在支撑隔离环境、工具链集成和编译节点。普通开发者缺少的不是模型能力,而是支撑模型运转的基础设施。模型是强大的发动机,但你需要一台整车才能让它跑起来,而这台整车的组装和调试,是另一门专业。

长时运行Agent的稳定性挑战

这些问题在通义实验室的受控环境下被压制了,但在真实项目中的出现概率并不低。处理这些问题需要工程层面的干预——比如定期checkpoint、中间状态持久化、异常自动告警——这些都不是开箱即用的能力,而是需要额外工程投入的「隐性成本」。

文档质量决定上限

实验中提供的那份产品调研文档,经过了通义实验室的前置清洗和结构化处理。文档的完整性、表述的清晰度、需求的明确程度,都直接影响模型的理解质量。

普通开发者在真实项目中拿到的文档,往往是半截话、错漏百出、不同人写的需求相互矛盾。这种文档质量,在没有人类产品经理做「中转翻译」的情况下,模型输出的代码大概率会在歧义点上跑偏。更残酷的现实是:高质量文档本身就是稀缺资源。如果你能写出一份足够清晰的需求文档,你其实已经完成了产品经理大部分的工作——而这个前提本身就是大多数项目所不具备的。

适用场景的天然窄化

双端App从0到1的交付,听起来是「万能场景」,但实际上对模型能力的要求极其垂直。它需要模型同时具备:文档理解、架构规划、跨平台代码生成、编译错误自修复、多端逻辑一致性保障——这五个能力集中在一起,构成了一个非常具体的Agent能力剖面。

如果你的需求不是「从0生成完整App」,而是「帮我优化一段SQL查询」或「写一封商务邮件」,Qwen3.7-Max的性价比反而极低。你花36元/百万token的价格,买了大量你用不到的能力。


04 | 那这99%的开发者,能做什么

99%用不上Qwen3.7-Max的全套能力,不代表AI编程这件事跟他们无关。答案在于「用正确的工具做正确的事」。

用Qwen3.7-Plus处理多模态任务

与Qwen3.7-Max同步发布的Qwen3.7-Plus,定位是「多模态交互混合智能体」,既能看懂界面截图,又能操作应用、写代码、交付成果。Plus版本的定价低得多(输入2元/百万token,输出8元/百万token),更适合日常开发中的高频小任务。

Plus版本特别适合「界面导向」的开发场景:当你有一个竞品App想逆向参考时,截几张关键界面图发给Plus,它能直接告诉你背后的实现逻辑和组件选型建议。这类任务对Max来说是「高射炮打蚊子」,但对Plus来说正好合适。

专注Agent的单点能力,而非全集

与其期待用一个大模型完成全流程,不如拆解工作流,把每个环节交给最合适的工具:

  • 需求分析环节:用Qwen3.7-Max做深度需求解析,但要提前准备好结构化的输入文档
  • 代码生成环节:用Qwen3.7-Plus做快速代码补全和片段生成,而非整模块交付
  • 调试修复环节:用模型的编译错误解析能力,配合人工审核使用
  • 测试验证环节:让模型生成测试用例,但不依赖模型独立完成质量保障

这套「分工协作」的逻辑,本质上是把AI编程从「All-in-One」的幻觉中拉回现实。

成本意识先行

每次调用前做一次成本预估:一个完整模块生成预计消耗多少token,对应多少费用?这个费用相比人工开发成本是否合算?

一个实用的经验值:如果你需要生成的是超过500行的新代码模块,建议先让模型产出「技术方案+目录结构」,人工审核后再让它生成具体代码。这样可以把token消耗控制在合理范围,同时保留人工纠偏的节点。

当成本意识建立起来之后,AI编程的价值才能真正被量化,而不是变成一场「烧钱实验」。


05 | 总结

通义实验室这场实验最值得关注的,不是「3小时交付双端App」这个结果——而是它揭示的方向。

大模型从「回答问题」进化到「交付成果」,这条路径已经清晰了。Qwen3.7-Max证明了端到端任务交付的可行性,但同时也证明了:这条路目前的门槛高得吓人,普通人根本无法直接使用。

这不是技术的失败。这是技术发展早期阶段的正常特征:能力先行,工程和生态跟上,然后才是大规模普及。

99%的开发者现在能做的,不是等这股浪潮自然波及自己,而是主动找到那个「用正确工具做正确事情」的切入口。Qwen3.7-Max是给基础设施工程师和AI系统架构师用的,但Qwen3.7-Plus以及即将到来的更多细分模型,正在把同样的能力一点点下沉给更广泛的开发者群体。

浪潮还没来,但已经在路上了。