乐于分享
好东西不私藏

一张截图生成完整App,Meta华人天团用Muse Spark宣告“写代码”时代终结

一张截图生成完整App,Meta华人天团用Muse Spark宣告“写代码”时代终结

微软用数十年的努力降低了计算机的使用门槛,而AI正在以指数级的速度降低软件开发的成本。

时隔一年,Meta终于带着一款能让人眼前一亮的新模型杀了回来。

4月8日,Meta超级智能实验室(MSL)正式发布了成立9个月以来的首款作品——Muse Spark(内部代号“牛油果”)。这个由华人科学家主导打造的原生多模态模型,不仅在多个基准测试中追平第一梯队,更是在社交媒体上引发了一场关于AI开发变革的热烈讨论:有用户上传了一张豆包App的截图,Muse Spark几乎1:1地将其复刻了出来——连图像细节都还原得相当到位。

对于产品经理和创业者而言,这意味着什么?或许从今天起,一个App的诞生不再需要数月的开发周期,而只需要一张截图、一句话。

一张截图,撬动开发革命

根据智东西的实地体验,在上传豆包App截图并提出“复刻”要求后,Muse Spark迅速生成了一套完整的应用界面。模型的回复风格颇为口语化,甚至带着一股“豆包味儿”,这可能与其面向C端用户的设计取向有关。

这项能力的含金量远不止“好玩”而已。Gartner 2026软件工程报告显示,超过75%的企业级前端代码已由AI辅助生成,交互式智能体编程已取代单纯的代码补全,成为提效核心驱动力。而Muse Spark将这个过程往前推了一大步——从“AI帮你写代码”升级到“AI直接生成产品”。

不止于此,Muse Spark还通过了经典的六边形小球弹跳测试。有网友感慨道:“时隔一年多,Meta终于发了一款能通过这个测试的大模型,历史性时刻值得记录。”这从侧面印证了模型在物理逻辑与视觉推理方面的扎实功底。

原生多模态,真正的“看见”

Muse Spark最大的技术亮点在于其原生多模态架构。不同于Llama时代将视觉编码器硬接在文本模型上的拼接式方案,Muse Spark从预训练阶段起就让文本、图像在同一高维特征空间中协同训练——处理图片时不需要先翻译成文字描述,直接从像素级别提取信息。

在此基础上,团队还引入了视觉思维链机制,将传统纯文本的推理链条延伸至视觉空间,模型能够直接在图像中“思考”,自主构建视觉元素之间的空间与逻辑关系。

此外,Muse Spark还搭载了沉思模式,该模式可并行调度多个智能体处理同一任务的不同维度,最后由主控系统融合结果,直接对标Gemini Deep Think和GPT Pro的极限推理模式。在该模式下,Humanity‘s Last Exam得分达到58%,FrontierScience Research达到38%。

在大模型测评平台Artificial Analysis上,Muse Spark的智能指数从此前Llama 4 Maverick的18分跃升至52分,介于Claude Sonnet 4.6和Claude Opus 4.6之间。在HealthBench Hard医学问答基准测试中取得42.8分,领先第二名近7个百分点。

废墟之上,华人天团崛起

Muse Spark的诞生,背景是Meta在AI领域一次彻底的自我革命。

上一代Llama 4因基准测试造假风波陷入被动,Meta创始人兼CEO扎克伯格亲手拆除了旧团队与架构,彻底走向“反Llama”路线。他砸下数百亿美元,组建了一支以华人科学家为主的AI研发天团,成立了全新的Meta超级智能实验室。

领衔这一实验室的是年仅29岁的Alexandr Wang(汪滔)——Scale AI创始人、Meta现任首席AI官。九个月前,他从零开始重构了整个AI技术栈:新基础设施、新架构、新数据管线,全部推倒重来。Muse Spark正是这套新栈的第一个产出。

Wang在X平台上表示:“我们在预训练、强化学习和测试时推理三条线上都看到了可预测的scaling。”这意味着这套栈不是靠调参撞大运,而是一个scaling曲线平滑的系统。

团队阵容堪称豪华:思维链概念提出者Jason Wei、o1核心贡献者Hyung Won Chung、被扎克伯格天价挖来的余家辉、扩散模型核心人物宋飏……这群顶尖人才的汇集,让“推理”成为了Muse Spark最鲜明的基因。

值得一提的是,MSL团队的“华人浓度”极高。模型发布当天,从赵晟佳、毕树超到余家辉、Jason Wei,一众华人AI大牛集体在X上转发新成果。另据Top华人科创社消息,前蚂蚁集团RL实验室首席科学家吴翼也已加盟Meta MSL,直接向Meta副总裁和MSL联合负责人Nat Friedman汇报。

闭源转身,AI竞赛新阶段

Muse Spark的发布还有一个意味深长的细节:在Meta的相关博客中,“开源”二字一次也没有出现。对于一家曾以Llama系列开源模型积累大批拥趸的公司而言,这意味着战略上的根本性转变——闭源旗舰模型+开源后续版本的混合路线已初步成形。

这一策略与行业大趋势不谋而合。AI辅助编程赛道正以前所未有的速度扩张。据Research and Markets数据,全球AI代码工具市场规模将从2025年的76.5亿美元增长至2030年的222亿美元,年复合增长率达23.8%。

与此同时,Anthropic的Claude已能通过一组结构化提示词,将UI截图转化为完整的移动应用框架。智谱发布的GLM-5V-Turbo也主打“草图、截图即代码”,原生支持图片、视频、设计稿等多种输入形式,从预训练阶段深度融合视觉与文本能力,让编程不再局限于纯文本输入。整个行业正朝着“从创意到产品只需一句话”的方向飞速演进。

一次体验,一个信号

一张截图就能复刻豆包App,这一看似轻巧的体验背后,释放的信号远比表面精彩。Muse Spark证明了两件事:其一,在经历Llama时代的阵痛后,Meta凭借顶尖人才和全新架构,有能力重返AI竞赛的第一梯队;其二,AI正从“聊天工具”加速进化为“生产力引擎”——从帮人写邮件到帮人写App,产品形态的迭代速度已远超多数人的想象。

技术的终极目标是普惠。当AI能够将创意直接转化为产品时,创新本身将不再受制于技术门槛。

眼下,Muse Spark已逐步推送至Meta.ai网页端及Meta AI App,沉思模式正灰度开放,私有API预览也向少量合作伙伴开放。按照Alexandr Wang的规划,这只是Muse系列模型家族的起点。

软件开发的门槛正在被悄然抹平——下一次,你想“复刻”什么?


数智见闻原创整理 | 未经授权,禁止转载