AI写网页早就能跑通代码了,但做出来还是像＂模板拼贴＂—

AI写网页早就能跑通代码了,但做出来还是像＂模板拼贴＂——问题到底出在哪?

这两年用AI做网页的工具真是卷疯了。从Bolt到OpenHands再到各家大厂的Coder系列，你丢一句"帮我做个极简风的产品落地页"，它吭哧吭哧吐一大串HTML/CSS，代码能跑、布局也像那么回事儿——但只要你多看两眼就会发现：图片是占位灰块，图表直接放了个"Chart goes here"，视频那更是连个影都没有。整个页面像是一个程序员、一个摄影师、一个图表师和一个视频师各干各的，最后被强行胶合在一起。

来自上海交大、西安交大、同济大学和微软的一篇最新论文，试图从"智能体协同"这个角度，把这种"缝合感"彻底解决掉。

📄 论文来源标题： MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
作者/机构： Yan Li, Zezi Zeng, Yifan Yang 等（上海交通大学 / 西安交通大学 / 同济大学 / Microsoft）
发表时间： 2026年4月（arXiv:2604.15309v1）
原文摘要： "We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection."

AI写网页，到底卡在哪儿？

先说个反直觉的事儿。

现在市面上做"文本到网页"的AI系统，其实HTML/CSS已经写得挺好了——OpenAI的GPT-5.1在布局正确率上能拿到0.73的分数（满分1）。听起来不错吧？但同一个模型，在"图片生成与整合"这一项上，只有0.05分。

0.05。差不多就是"完全不行"。

为什么？因为传统做法只干一件事——写代码。图片、视频、图表这些"非文字的东西"，它要么当场放个占位符糊弄过去，要么从网上随便retrieve一张图塞进去。结果就是三件事全搞砸：一是风格不一致，文案是极简风，配图却花里胡哨；二是尺寸错位，HTML里留了个400×300的洞，生成的图偏偏是横屏宽幅；三是整体不协调，每个元素单独看都OK，拼起来就像大杂烩。

论文里用了一个特别形象的说法：现有方法把多模态素材当成"loosely coupled add-ons"——松散挂在页面上的插件。

但真正的设计师不是这么干活的。

人类设计师的"打腹稿+反复改"，被塞进了AI

你观察过专业UI设计师是怎么做图的吗？他们几乎从不一上来就画具体按钮。

流程一般是这样：先在纸上涂个整体框架——这里放hero区、中间三栏、下面是图表模块；然后在框架内决定每一块的调性——这张图要用什么色调、视频要什么节奏；最后打开Figma开始具体落地，做完之后站远三米，再整体看一遍，哪儿别扭改哪儿。

研究团队把这个流程抽象出来，做成了两层结构。

第一层叫"分层规划"。 系统先出一个全局布局方案——整张页面分几段、每段放什么、整体色调怎么定；然后再针对每一个多模态元素（图/视频/图表），单独生成一份"局部计划"。这份局部计划会告诉下游的生成工具：你要画的这张图是放在"产品展示区"的、要配合整体的莫兰迪色系、尺寸约束是16:9、情绪是"沉稳专业"。

这就好像你请了一个主设计师先画分镜，然后把分镜连带风格指南一块儿发给外包。外包不用猜原作者想要啥。

第二层叫"分层自我反思"。 生成完第一版之后，系统会从三个层级回头审视自己的作品：先局部修（这张图的颜色是不是偏了）、再上下文修（这张图塞进这个位置为啥溢出了）、最后全局修（整张页面看下来是不是风格统一）。最多循环3次就收敛——再改下去收益就不明显了。

这个流程里最值得玩味的一点是——局部的修改有时会冒泡到全局。比方说某张图局部微调后发现跟上下文冲突，系统会自动把这个冲突升级到全局层重新调整布局。不是一股脑"改到底"，而是哪里有问题、反馈就走到哪一级。

从0.42到0.75，差出了什么？

研究团队做了个叫MM-WebGEN-Bench的基准测试——120个精心设计的网页需求，覆盖11种场景、11种视觉风格，图/视频/图表都有。然后把市面上能打的模型都拉进来比。

结果是这样的：

GPT-5.1直接写代码，综合分0.42；给GPT-5.1配上一个标准的Agent框架（Bolt.diy或OpenHands），分数是0.46；单纯给GPT-5.1接上AIGC工具（GPT-Image-1画图、Sora-2做视频），分数只提到0.45——几乎没变。

而这套MM-WebAgent框架，一下子冲到了0.75。

更刺激的是这个对比：单独的"图片生成与整合"一项，GPT-5.1自己做是0.05，加上AIGC工具变成0.05（没错，还是0.05），而接入MM-WebAgent之后是0.88——相当于从"交白卷"到"接近满分"。

这说明什么？光把AIGC工具接进来没用，真正产生效果的是"协调"这件事本身。工具一直都在那儿，缺的是一个懂得什么时候用、怎么用、用完之后怎么检查的"总导演"。

他们还做了50人参与的用户盲测——全是有设计或CS背景的专业人员，在不知道哪个结果出自哪个模型的情况下做偏好评分。MM-WebAgent的胜率是78.99%，接近八成。

写在最后

这篇论文最有意思的地方，其实不是分数本身。

是它把"设计"这件一直被认为只有人类才能做好的事情，拆成了一个可以被Agent执行的流程——打腹稿、分工、自查、迭代。当AI开始模仿设计师的"工作方法论"而不仅仅是"输出能力"，它的上限会被重新定义。

当然，论文自己也老实承认：系统现在还挺依赖外部AIGC工具，图和视频的质量直接被底层模型的能力卡住；整个框架是"编排式"的，没有用强化学习训练agent自己选择工具、规划步骤的能力。这都是下一步的事儿。