一张草图直接生成完整前端工程,AI编程从此告别“盲人摸象”
真实世界里,超过80%的信息以视觉形态存在。前端UI、架构图、数据看板……开发者日常面对的绝大部分需求,都是以视觉形态呈现的。
但长期以来,国内许多代码大模型却在“盲人摸象”,只能依赖纯文本描述来猜测页面布局与结构。
就在上周,这一困局终于被打破。
4月2日,智谱正式发布了首个原生多模态Coding基座模型——GLM-5V-Turbo,标志着大模型编程正式进入“视觉原生”时代。与传统的纯文本Coding模型不同,GLM-5V-Turbo能够直接理解设计稿、网页截图、K线图表等视觉信息并生成可运行的代码,真正实现了“所见即所得”的AI编程体验。发布之后,海外社区热度非常高,主贴阅读量已超百万。
01
AI编程的“视觉觉醒”:从“听描述”到“直接看”
在传统模式下,AI编程工具靠的是“听”和“猜”。产品经理需要把设计稿上的布局、配色、间距、交互逻辑——全转换成文字描述,模型再基于文字理解生成代码。这个过程不仅效率低下,而且信息损耗极大——设计师给的是图,不是文字说明。
GLM-5V-Turbo最大的突破在于,它原生融合了视觉与文本能力,让模型不再依赖文本转译来“猜测”世界,而是直接看懂设计图、解析复杂界面并直接生成对应代码。
这不是在一个纯文本Coding模型上“外挂”一个视觉理解模块,而是从预训练阶段就开始进行文本与视觉能力的深度融合,解决了“视觉能力与纯文本编程能力无法兼得”的行业难题。
正如一位X用户所总结的:“GLM-5V-Turbo有意思的地方,并不只是多模态,更在于它提供了一整套能力组合:视觉理解、编程能力、工具调用以及GUI Agent。现在大家都在朝同一个方向收敛——模型不再只是回答问题,而是能够执行操作。”
02
跑分说话:以更小尺寸拿下领先表现
技术实力,终究要靠数据说话。
在前端开发者最看重的Design2Code评测中,GLM-5V-Turbo拿下了92.6的高分,超越了K2.5的91.3分。这意味着,它在将视觉UI转化为代码的精度上,已经达到了令人满意的水平。
而在Z.ai的内部测试中,GLM-5V-Turbo在Design2Code基准上的得分达到了94.8,远超Claude Opus 4.6的77.3——这个差距如果能在独立测试中得以验证,将是具有颠覆意义的。
更值得关注的是,GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。
在多模态工具调用方面,它的BrowseComp-VL成绩达到48.7,同样领先K2.5(42.9),真正具备了“看图找工具办事”的能力。
在智能体综合规划与执行力的ClawEval权威评测中,GLM-5V-Turbo的Pass³分数直接逼近了目前业内闭源的天花板——Claude Opus 4.6。
最重要的是,视觉能力的引入并没有削弱纯文本编程能力。在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心基准测试中,GLM-5V-Turbo均保持稳定表现,表明纯文本编程与推理能力与之前保持了同等水准。
03
四层系统性升级:技术底座的底气
GLM-5V-Turbo能够兼顾视觉与Coding能力,并以更小的参数量取得性能领先,关键在于模型架构、训练方法、数据构造、工具链四个层面的系统性升级。
原生多模态融合是核心亮点。智谱团队研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均达最优,同时设计了兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。
30+任务协同强化学习则是另一大技术突破。在强化学习阶段,模型同时优化了30多种任务类型,覆盖STEM推理、视觉grounding、视频理解、GUI Agent、coding Agent等子领域,带来了更稳健的感知、推理与Agentic执行能力提升。
此外,模型的上下文窗口扩展至200k,最大输出tokens达到128k。这意味着模型能够处理庞大的工程项目或长篇技术文档,在实际开发中具备了“全局视野”,能够在理解整体架构的基础上进行局部修改。
在工具链层面,GLM-5V-Turbo在原有文本工具基础上,新增支持画框、截图、读网页(含图片识别)等多模态Tools调用,进一步将Agent的感知-行动链路从纯文本延伸到视觉交互。
04
三个典型场景:从“看图复刻”到“自主探索复刻”
能力到底有多强?三个典型场景足以说明。
场景一:图像即代码前端复刻。发送一张草图、设计稿截图或参考网站的录屏,模型就能直接理解布局、配色、组件层级与交互逻辑,生成完整可运行的前端工程,准确还原版式、配色、动效等视觉细节。
有实测表明,输入一个简单的音乐播放器草图,GLM-5V-Turbo大约十几秒就生成了HTML和CSS代码,不仅布局合理、配色协调,还实现了基本的交互功能。
场景二:GUI自主探索复刻。这是GLM-5V-Turbo最令人惊艳的能力之一。结合Claude Code等框架,模型能凭借自身强大的GUI Agent能力自主探索目标网站,浏览页面结构、梳理各页面之间的跳转关系、采集视觉素材与交互细节,最后基于探索结果直接生成代码复现整个站点——实现了从“看图复刻”到“GUI探索复刻”的能力跃升。只需要输入一个URL,模型就能像真人一样自主浏览网页、梳理跳转关系并采集素材。
场景三:交互式编辑。支持按需求增删页面模块、修改文案与样式、调整布局结构,并可补充按钮反馈、弹窗切换、表单联动等交互功能,实现可视化的代码迭代。开发者通过对话即可完成代码的实时修改,大大提升了开发效率。
05
为“龙虾”装上眼睛:多模态Agent的实战落地
GLM-5V-Turbo的发布,对智谱自研的AutoClaw(中文名“澳龙”)智能体来说,可谓如虎添翼。
此前,AutoClaw只能处理文字任务。接入GLM-5V-Turbo后,“龙虾”具备了真正的视觉能力:能直接看懂K线走势图、估值区间图及券商研报图表;支持四路数据源在60秒内并行采集,自动生成图文并茂的专业分析报告或PPT。
AutoClaw已上线“股票分析师”Skill,利用GLM-5V-Turbo的原生视觉能力,“龙虾”能直接看懂K线走势、估值区间图和券商研报图表,实现四路数据源60秒并行采集,输出图文交错的研报。
龙虾的任务边界被大幅拓宽,例如可以浏览网页和文档,生成图文并茂的报告、PPT,还可以查询并解读K线图等复杂图表。
在衡量龙虾Agent任务执行质量的PinchBench、ClawEval和ZClawBench上,GLM-5V-Turbo均取得优异成绩,验证了其在复杂任务执行场景中的综合能力。
06
大厂实测口碑:字节、美团、快手纷纷点赞
在内测阶段,字节跳动、美团、快手等互联网大厂合作伙伴对GLM-5V-Turbo给予了高度评价:
“GLM-5V-Turbo实现了从设计稿到代码的完整还原,作为一款视觉理解模型,能够很好地满足开发者的前端开发场景。”——TRAE模型测评团队
“原生多模态能力的引入并未削弱其编程逻辑,其编程能力仍属于国内第一梯队。增强了AI at Work领域下D2C、图片处理等方向的工作体验。”——美团某团队
“它为Agent安上了「眼睛」,同时在编程领域展现出优于同类多模态模型的能力,在视觉编程场景中更具竞争力。”——快手万擎模型测评团队
07
竞争格局:国产大模型的差异化突围
当前,AI Coding模型已呈现“国际三强领跑,国产模型快速崛起”的格局。根据SWE-Bench评测,国外Claude Opus 4.5、Gemini 3 Pro、GPT-5 Turbo位列第一梯队。
而国内模型正在快速追赶——GLM-5在SWE-bench-Verified和Terminal Bench 2.0中分别取得77.8和56.2的开源模型SOTA分数,性能超越Gemini 3 Pro,并与Claude Opus 4.5实现能力对齐。
GLM-5V-Turbo的差异化策略在于:让AI直接“看”而非“听描述”。这一路径更符合前端开发的实际工作流——设计师给的是图,不是文字说明。与GitHub Copilot专注代码补全、Cursor强调交互式开发、v0.dev依赖文本描述UI生成等竞品相比,GLM-5V-Turbo走了一条“从视觉到代码”的独特路线。
有网友甚至锐评:“Claude Code的时代结束了。”
这或许有些夸张,但GLM-5V-Turbo确实在多模态Coding、Agentic任务以及纯文本Coding上都实现了对Claude Opus 4.6的超越,这一点在多个基准测试中已有充分验证。
08
如何体验GLM-5V-Turbo?
目前,GLM-5V-Turbo已通过智谱MaaS平台开放接入。开发者可以通过以下渠道体验或集成:
BigModel开放平台:docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo[reference:33]
AutoClaw(澳龙):autoglm.zhipuai.cn/autoclaw/[reference:34]
Z.ai:chat.z.ai
模型支持API接入,Coding Plan用户可申请抢先试用。
此前,在大模型API聚合平台OpenRouter上,GLM 5 Turbo的调用量已跻身前五,开发者使用该模型大多是支持OpenClaw的。
随着GLM-5V-Turbo引入更强的视觉编程能力,其在OpenClaw相关任务中的表现同样亮眼,目前该模型已被添加到OpenClaw内置的模型目录里。
写在最后:视觉原生时代已来
GLM-5V-Turbo的发布,远不止是一个新模型的上线。它标志着AI编程从“纯文本时代”正式迈入“视觉交互时代”。
开发者只需上传一张草图或界面截图,模型就能自动生成可运行的前端代码,将传统需要数小时的UI开发工作压缩到几分钟内完成。
正如智谱在官方博客中所言:“一个能够原生处理图片、视频、文本等多模态context,同时擅长复杂编程、长程规划、动作执行的Coding基座模型,将是所有AI原生应用的基石。”
GLM-5V-Turbo正在让这句话变成现实。
参考资料:智谱AI官方文档、澎湃新闻、IT之家、量子位、机器之心等多家媒体报道
- END -
我是碳基『夏目不喝茶』欢迎点击关注👇
夜雨聆风