乐于分享
好东西不私藏

录个屏就能复刻App:这个AI工具让前端开发直接变了天

录个屏就能复刻App:这个AI工具让前端开发直接变了天

录个屏就能复刻App:这个AI工具让前端开发直接变了天
最近智谱发布了一个叫GLM-5V-Turbo的多模态模型,我用了一下,说实话有点震惊。
传统App复刻的流程
以前复刻一个App页面,流程是这样的:设计师在Figma里标注每一个元素的尺寸、颜色、间距,输出一份详细标注稿;前端工程师对着标注稿一个像素一个像素地还原;设计师review,发现不对的地方打回去改;来回三四轮,一个页面可能要磨一两天。
现在呢?录个屏,或者截张图,一句话扔给GLM-5V-Turbo,几分钟出活。
我录了一段微信读书的操作视频,从首页到书架到个人页,完整录了一段,然后直接扔给模型。提示词就一句话:基于视频帮我复刻这个App。没告诉它这是微信读书,没给任何UI说明文档。
模型接到任务后,先输出了一份完整的复刻计划:页面拆解、组件清单、交互逻辑、技术选型,条理清晰得像一个有经验的前端工程师在做技术方案评审。然后按照计划逐步实施,最终交付的效果让我相当意外——底部tab栏、顶部菜单切换、卡片式书籍列表,全部都还原了,而且每个tab和菜单项都是可点击、可交互的。
我又试了一下:换成一张高清截图,复刻微信首页。这回效果直接拉满,连文字排版的间距、字号层级几乎都对得上。
能力实现的底层逻辑
这件事的底层逻辑很清晰。GLM-5V-Turbo是原生多模态模型,从预训练阶段就把视觉和语言统一建模。它看设计稿的方式跟人类设计师一样:感知到”这里有一个圆角卡片,背景是半透明毛玻璃效果,左上角有绿色状态指示灯”,然后直接把视觉理解翻译成CSS和组件代码。中间没有OCR转文字再猜语义的有损环节,视觉信息到代码的转换是一步到位的。
多场景能力测试
再试文档解读:扔一份PDF研报,让它基于图表写分析。GLM-5V-Turbo对图表的数据提取非常精准,柱状图的对比、折线图的拐点、表格里的关键数值,都被准确地引用到了文字分析中,而且自动把原报告的图片嵌进文章里,真的做到了图文并茂。
行业变化的思考
说实话,AI工具每隔几个月就会出现一个让你感觉”行业又往前走了一步”的节点。视觉编程能力的成熟,就是其中一个。
以前我们用AI写代码,本质上还是在给模型喂文字。现在,截个图、录个视频就能直接下指令,模型看得懂你眼睛看到的东西,这个门槛的降低是质变级别的。
当一个工具能直接”看”懂你的工作内容,而不需要你把工作内容翻译成它能理解的格式,它就真的开始进入你的工作流了。
今天这篇文章的核心就一个:
视觉编程时代已经到来,录个屏就能复刻App,你的前端工作流该更新了。
看完这篇,你最大的感受是什么?欢迎在评论区聊聊。
如果对你有启发,欢迎【关注】Zero程序员,
一枚普通程序员的副业实验田,主业写bug,副业搞Money。