通义实验室Qwen负责人揭秘:1份文档3小时交付双端App,但99%开发者根本用不上-夜雨聆风

通义实验室Qwen负责人揭秘:1份文档3小时交付双端App,但99%开发者根本用不上

最近，通义实验室公布了一项实验结果，在行业内炸出了一片讨论。

只给Qwen3.7-Max一份普通的产品调研文档，不给任何代码提示，不给任何界面设计稿，让模型自己理解、自己规划、自己动手。3小时后，iOS、Android和Web三端应用全部跑了起来。

这不是演示。这是隔离环境下的真实交付。

Qwen3.7-Max的负责人随后在公开演讲中承认：这样的能力，99%的开发者当下根本用不上。

这话听起来很凡尔赛，但仔细拆解背后的技术逻辑，你会发现这不是在凡尔赛——而是在陈述一个残酷的事实。

通义实验室和Efflora团队设计了这场实验，流程并不复杂，但每个环节都踩在了大模型能力的边界上。

第一阶段：文档解析与需求理解

实验只提供了一份产品调研文档，格式是常见的Word/PDF。文档里包含了目标用户描述、核心功能列表、竞品对比片段。Qwen3.7-Max接收到这份文档后，首先做的是语义解析——不是简单提取文字，而是把文档里的业务语言翻译成技术语言，把「用户需要一个能记账的应用」翻译成「需要本地存储+统计图表+多用户体系」这类具体的工程命题。

这个环节的难点在于：普通文档天然充满歧义，人类产品经理看了能脑补细节，但模型必须从模糊表述中做出合理假设。更关键的是，模型在这一步会主动识别文档中的隐含约束：性能要求、兼容性要求、安全性要求——这些在文档里经常是「不说但默认」的。模型需要靠对训练数据中大量软件工程案例的学习，把这些隐含约束挖掘出来。这一步的质量直接决定后续代码的可用性上限。

第二阶段：技术方案规划

理解需求之后，Qwen3.7-Max并没有直接开始写代码。它先花了相当一部分时间做技术方案规划：架构选型（React Native还是Flutter，iOS原生还是混合），目录结构怎么组织，状态管理用什么方案，接口协议怎么定义。

根据通义实验室后续披露的信息，模型在这一步会进行多次自我校验：如果发现多个技术路径，会先跑一个快速模拟，确认哪个方案在当前约束下最稳定。这一步对人类工程师来说是「经验直觉」，对Qwen3.7-Max来说，是长上下文推理能力的集中体现。

三端同时生成意味着iOS端、Android端和Web端的技术选型必须相互兼容——状态管理方案需要跨端一致，数据模型需要统一设计语言，API接口需要同时适配三端不同的调用习惯。任何一个平台的技术选型发生偏移，都会波及其他两端。Qwen3.7-Max之所以能在这个环节不出岔子，核心依赖是它能够在生成代码之前，先在「规划层」完成全局一致性校验。

第三阶段：跨端代码生成

正式生成代码时，模型需要同时处理三端：iOS的Swift代码、Android的Kotlin代码、Web端的TypeScript/React代码。三个平台的语法规范不同、组件体系不同、甚至连错误处理逻辑都不同。Qwen3.7-Max能够在生成过程中保持平台间逻辑一致性，这要求模型在极长的推理链条中始终维持对全局架构的记忆。

第四阶段：编译调试与自动修复

代码生成完成后，模型并没有停下来。它会自动触发编译流程，捕获编译错误，然后分析错误原因，在下一轮对话中针对性地修复。这个「生成→编译→修复」的循环，会持续到三端全部编译通过为止。

难点在于：有些编译错误是「级联」的——一个头文件的类型错误会导致下游十几个文件全部报编译失败。模型需要从纷繁复杂的错误信息中找出「根因」，而不是被表面错误牵着走。

最终的产出是：iOS安装包、Android APK，以及一个可以在线访问的Web应用。整个过程耗时约3小时，无人工介入代码层。

02 | Qwen3.7-Max凭什么能做到这件事

这场实验背后，Qwen3.7-Max的几项核心能力缺一不可。

百万级上下文窗口

Qwen3.7-Max的上下文长度支持到100万token。这个数字在当下并不是独家优势，但关键在于：这100万token不是拿来跑长对话用的，而是拿来跑「长任务」的。

当模型需要同时记住需求文档、生成的代码片段、各端平台的约束规则、以及历史调试记录时，普通模型的上下文很快就会溢出。Qwen3.7-Max的长上下文让模型可以在整个3小时任务周期内，始终持有完整的技术上下文，而不需要靠外部记忆体来续命。

思考模式与非思考模式双轨

Qwen3.7-Max支持「思考模式」和「非思考模式」两种推理路径。在需要深度规划和技术推演时，开启思考模式，模型会输出完整的推理链条；在需要快速执行标准化代码块时，切换到非思考模式，响应速度更快。

这一设计解决了Agent应用中常见的「速度与深度」矛盾：规划阶段用思考模式保证质量，执行阶段用非思考模式保证效率。两者并非替代关系，而是不同任务阶段的合理切换。

长周期任务自主执行能力

这是Qwen3.7-Max区别于前代模型最显著的能力提升。阿里云百炼平台的产品文档中明确写道：Qwen3.7-Max面向「编程、办公自动化与长周期任务自主执行」场景打造。

所谓「长周期任务」，不是指单次请求的响应时间，而是指模型能够在多轮交互中持续推进一个复杂目标，中途遇到错误能自主调整策略，不会因为一次失败就放弃整个任务。

编程与办公自动化的深度融合

从阿里云百炼平台的定价页面可以读到，Qwen3.7-Max的输出价格是输入价格的3倍（12元/百万token输入，36元/百万token输出），这个定价结构本身就反映了模型的能力定位：模型输出的代码和技术文档量远大于输入的指令量。

这是一个「劳动密集型」模型——它不是在回答问题，而是在交付成果。输出价格高于输入价格，这在问答类模型上是从未出现过的定价结构，却是任务型Agent模型的必然特征。

03 | 为什么99%的开发者用不上

99%这个数字，不是随口说的。以下是几个核心原因。

前置成本：token消耗远超预期

3小时的双端交付，听起来高效，但token消耗是巨大的。按照Qwen3.7-Max的定价（输入12元/百万token，输出36元/百万token），一个完整的双端App生成流程，涉及需求解析、技术方案、多轮代码生成、编译调试循环，总token消耗轻松突破数千万级别。仅输出token的费用就可能达到数百元——这还不包含模型思考过程中的中间推理token。

普通开发者在没有精确成本预估的情况下，一次冲动调用可能烧掉数百元而没有产出可用代码。

技术集成复杂度：Agent Pipeline需要专业工程能力

让Qwen3.7-Max生成代码只是第一步。要让模型真正「自主工作」，还需要搭建一套完整的Agent Pipeline：文档输入层、任务拆解层、代码生成层、编译验证层、产物交付层。这套工程架构的搭建和维护，本身就需要有经验的工程师来完成。

通义实验室在这场实验中，背后是整支工程团队在支撑隔离环境、工具链集成和编译节点。普通开发者缺少的不是模型能力，而是支撑模型运转的基础设施。模型是强大的发动机，但你需要一台整车才能让它跑起来，而这台整车的组装和调试，是另一门专业。

长时运行Agent的稳定性挑战

这些问题在通义实验室的受控环境下被压制了，但在真实项目中的出现概率并不低。处理这些问题需要工程层面的干预——比如定期checkpoint、中间状态持久化、异常自动告警——这些都不是开箱即用的能力，而是需要额外工程投入的「隐性成本」。

文档质量决定上限

实验中提供的那份产品调研文档，经过了通义实验室的前置清洗和结构化处理。文档的完整性、表述的清晰度、需求的明确程度，都直接影响模型的理解质量。

普通开发者在真实项目中拿到的文档，往往是半截话、错漏百出、不同人写的需求相互矛盾。这种文档质量，在没有人类产品经理做「中转翻译」的情况下，模型输出的代码大概率会在歧义点上跑偏。更残酷的现实是：高质量文档本身就是稀缺资源。如果你能写出一份足够清晰的需求文档，你其实已经完成了产品经理大部分的工作——而这个前提本身就是大多数项目所不具备的。

适用场景的天然窄化

双端App从0到1的交付，听起来是「万能场景」，但实际上对模型能力的要求极其垂直。它需要模型同时具备：文档理解、架构规划、跨平台代码生成、编译错误自修复、多端逻辑一致性保障——这五个能力集中在一起，构成了一个非常具体的Agent能力剖面。

如果你的需求不是「从0生成完整App」，而是「帮我优化一段SQL查询」或「写一封商务邮件」，Qwen3.7-Max的性价比反而极低。你花36元/百万token的价格，买了大量你用不到的能力。

04 | 那这99%的开发者，能做什么

99%用不上Qwen3.7-Max的全套能力，不代表AI编程这件事跟他们无关。答案在于「用正确的工具做正确的事」。

用Qwen3.7-Plus处理多模态任务

与Qwen3.7-Max同步发布的Qwen3.7-Plus，定位是「多模态交互混合智能体」，既能看懂界面截图，又能操作应用、写代码、交付成果。Plus版本的定价低得多（输入2元/百万token，输出8元/百万token），更适合日常开发中的高频小任务。

Plus版本特别适合「界面导向」的开发场景：当你有一个竞品App想逆向参考时，截几张关键界面图发给Plus，它能直接告诉你背后的实现逻辑和组件选型建议。这类任务对Max来说是「高射炮打蚊子」，但对Plus来说正好合适。

专注Agent的单点能力，而非全集

与其期待用一个大模型完成全流程，不如拆解工作流，把每个环节交给最合适的工具：

• 需求分析环节：用Qwen3.7-Max做深度需求解析，但要提前准备好结构化的输入文档
• 代码生成环节：用Qwen3.7-Plus做快速代码补全和片段生成，而非整模块交付
• 调试修复环节：用模型的编译错误解析能力，配合人工审核使用
• 测试验证环节：让模型生成测试用例，但不依赖模型独立完成质量保障

这套「分工协作」的逻辑，本质上是把AI编程从「All-in-One」的幻觉中拉回现实。

成本意识先行

每次调用前做一次成本预估：一个完整模块生成预计消耗多少token，对应多少费用？这个费用相比人工开发成本是否合算？

一个实用的经验值：如果你需要生成的是超过500行的新代码模块，建议先让模型产出「技术方案+目录结构」，人工审核后再让它生成具体代码。这样可以把token消耗控制在合理范围，同时保留人工纠偏的节点。

当成本意识建立起来之后，AI编程的价值才能真正被量化，而不是变成一场「烧钱实验」。

05 | 总结

通义实验室这场实验最值得关注的，不是「3小时交付双端App」这个结果——而是它揭示的方向。

大模型从「回答问题」进化到「交付成果」，这条路径已经清晰了。Qwen3.7-Max证明了端到端任务交付的可行性，但同时也证明了：这条路目前的门槛高得吓人，普通人根本无法直接使用。

这不是技术的失败。这是技术发展早期阶段的正常特征：能力先行，工程和生态跟上，然后才是大规模普及。

99%的开发者现在能做的，不是等这股浪潮自然波及自己，而是主动找到那个「用正确工具做正确事情」的切入口。Qwen3.7-Max是给基础设施工程师和AI系统架构师用的，但Qwen3.7-Plus以及即将到来的更多细分模型，正在把同样的能力一点点下沉给更广泛的开发者群体。

浪潮还没来，但已经在路上了。