这两年用AI做网页的工具真是卷疯了。从Bolt到OpenHands再到各家大厂的Coder系列,你丢一句"帮我做个极简风的产品落地页",它吭哧吭哧吐一大串HTML/CSS,代码能跑、布局也像那么回事儿——但只要你多看两眼就会发现:图片是占位灰块,图表直接放了个"Chart goes here",视频那更是连个影都没有。整个页面像是一个程序员、一个摄影师、一个图表师和一个视频师各干各的,最后被强行胶合在一起。
来自上海交大、西安交大、同济大学和微软的一篇最新论文,试图从"智能体协同"这个角度,把这种"缝合感"彻底解决掉。
📄 论文来源标题: MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
作者/机构: Yan Li, Zezi Zeng, Yifan Yang 等(上海交通大学 / 西安交通大学 / 同济大学 / Microsoft)
发表时间: 2026年4月(arXiv:2604.15309v1)
原文摘要: "We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection."
AI写网页,到底卡在哪儿?
先说个反直觉的事儿。
现在市面上做"文本到网页"的AI系统,其实HTML/CSS已经写得挺好了——OpenAI的GPT-5.1在布局正确率上能拿到0.73的分数(满分1)。听起来不错吧?但同一个模型,在"图片生成与整合"这一项上,只有0.05分。
0.05。差不多就是"完全不行"。
为什么?因为传统做法只干一件事——写代码。图片、视频、图表这些"非文字的东西",它要么当场放个占位符糊弄过去,要么从网上随便retrieve一张图塞进去。结果就是三件事全搞砸:一是风格不一致,文案是极简风,配图却花里胡哨;二是尺寸错位,HTML里留了个400×300的洞,生成的图偏偏是横屏宽幅;三是整体不协调,每个元素单独看都OK,拼起来就像大杂烩。
论文里用了一个特别形象的说法:现有方法把多模态素材当成"loosely coupled add-ons"——松散挂在页面上的插件。
但真正的设计师不是这么干活的。
人类设计师的"打腹稿+反复改",被塞进了AI
你观察过专业UI设计师是怎么做图的吗?他们几乎从不一上来就画具体按钮。
流程一般是这样:先在纸上涂个整体框架——这里放hero区、中间三栏、下面是图表模块;然后在框架内决定每一块的调性——这张图要用什么色调、视频要什么节奏;最后打开Figma开始具体落地,做完之后站远三米,再整体看一遍,哪儿别扭改哪儿。
研究团队把这个流程抽象出来,做成了两层结构。
第一层叫"分层规划"。 系统先出一个全局布局方案——整张页面分几段、每段放什么、整体色调怎么定;然后再针对每一个多模态元素(图/视频/图表),单独生成一份"局部计划"。这份局部计划会告诉下游的生成工具:你要画的这张图是放在"产品展示区"的、要配合整体的莫兰迪色系、尺寸约束是16:9、情绪是"沉稳专业"。
这就好像你请了一个主设计师先画分镜,然后把分镜连带风格指南一块儿发给外包。外包不用猜原作者想要啥。
第二层叫"分层自我反思"。 生成完第一版之后,系统会从三个层级回头审视自己的作品:先局部修(这张图的颜色是不是偏了)、再上下文修(这张图塞进这个位置为啥溢出了)、最后全局修(整张页面看下来是不是风格统一)。最多循环3次就收敛——再改下去收益就不明显了。
这个流程里最值得玩味的一点是——局部的修改有时会冒泡到全局。比方说某张图局部微调后发现跟上下文冲突,系统会自动把这个冲突升级到全局层重新调整布局。不是一股脑"改到底",而是哪里有问题、反馈就走到哪一级。
从0.42到0.75,差出了什么?
研究团队做了个叫MM-WebGEN-Bench的基准测试——120个精心设计的网页需求,覆盖11种场景、11种视觉风格,图/视频/图表都有。然后把市面上能打的模型都拉进来比。
结果是这样的:
GPT-5.1直接写代码,综合分0.42;给GPT-5.1配上一个标准的Agent框架(Bolt.diy或OpenHands),分数是0.46;单纯给GPT-5.1接上AIGC工具(GPT-Image-1画图、Sora-2做视频),分数只提到0.45——几乎没变。
而这套MM-WebAgent框架,一下子冲到了0.75。
更刺激的是这个对比:单独的"图片生成与整合"一项,GPT-5.1自己做是0.05,加上AIGC工具变成0.05(没错,还是0.05),而接入MM-WebAgent之后是0.88——相当于从"交白卷"到"接近满分"。
这说明什么?光把AIGC工具接进来没用,真正产生效果的是"协调"这件事本身。工具一直都在那儿,缺的是一个懂得什么时候用、怎么用、用完之后怎么检查的"总导演"。
他们还做了50人参与的用户盲测——全是有设计或CS背景的专业人员,在不知道哪个结果出自哪个模型的情况下做偏好评分。MM-WebAgent的胜率是78.99%,接近八成。
写在最后
这篇论文最有意思的地方,其实不是分数本身。
是它把"设计"这件一直被认为只有人类才能做好的事情,拆成了一个可以被Agent执行的流程——打腹稿、分工、自查、迭代。当AI开始模仿设计师的"工作方法论"而不仅仅是"输出能力",它的上限会被重新定义。
当然,论文自己也老实承认:系统现在还挺依赖外部AIGC工具,图和视频的质量直接被底层模型的能力卡住;整个框架是"编排式"的,没有用强化学习训练agent自己选择工具、规划步骤的能力。这都是下一步的事儿。
夜雨聆风