乐于分享
好东西不私藏

AI 生图终于认字了:GPT Image 2 中文实测,"有图有真相"还剩多少命

AI 生图终于认字了:GPT Image 2 中文实测,"有图有真相"还剩多少命

4月20日下午5点,ChatGPT 全量推送了一个更新。

所有用户,包括免费用户,打开对话框就能用。我第一时间跑了几十组测试,从书法到宋体排版、从抖音 UI 到小红书界面、从高考英语试卷到游戏截图。

结论只有一句话:AI 生图的”文盲时代”结束了。

先看几张图

我让 GPT Image 2 生成一个”仿宋体排版的中文简历”,结果是这样的:

一份格式工整、字体清晰的中文简历。段落缩进正确,标点使用规范,连字号层级都对。你把它截图发到群里,没人能第一眼看出这是 AI 生成的。

再试一个更狠的:微博热搜榜截图

时间戳、热搜标题、排名、热度数字、广告位。全部正确,全部中文。不是那种”每个字大概对但总有一两个字是鬼画符”的水平,而是像素级的准确。

这意味着什么?

99%+ 准确率到底意味着什么

过去两年,AI 生图最大的笑话是”它不会写中文”。

Midjourney 画一扇招牌,上面写”今日营业中”,可能变成”今曰營業巾”。DALL-E 3 好一些,但遇到书法或者复杂排版还是露馅。FLUX 相对擅长英文,中文同样不稳定。

GPT Image 2 把这个问题基本解决了。

它不只是”能写字”那么简单。我测试了四个维度:

书法。 让它写”天道酬勤”的楷书,笔画结构正确,提按顿挫有味道。虽然离书法大师还差得远,但作为一幅图片里的装饰文字,完全过关。

排版。 宋体、楷体、仿宋、黑体,它分得清。字号层级、段落缩进、中英文混排,都不出错。我让它仿了一个人民教育出版社的课本页,连页码位置都对。

UI 界面。 抖音、小红书、微信、B站,这些 App 的界面它能精准还原。图标位置、文字颜色、按钮样式,都是”见过即能复现”的水平。这不是简单的文字渲染,这是世界知识

多语言混排。 中英日韩混搭的场景也没问题。一份中英对照的合同、一张日文菜单加中文翻译,它都能处理。

99%+ 这个数字不是我瞎编的。在我跑的几十组测试里,只有极少数极端情况(比如非常小字号或非常复杂的繁体字组合)会出现轻微错误。绝大多数场景,肉眼完全分辨不出。

“见过即能复现”才是真正的杀手锏

准确写字只是表面。真正的突破在于 GPT Image 2 的世界知识能力

什么是世界知识?就是它不只是学会了”怎么画字”,而是理解了”这个东西长什么样”。

你让它画一个”iPhone 16 Pro 的锁屏界面”,它知道灵动岛在哪里、时间显示在哪个位置、通知卡片的样式长什么样。

你让它画”抖音首页推荐流”,它知道视频是竖屏的、评论区在底部、右下角有头像和点赞按钮。

你让它画”高考英语试卷第三页”,它知道试卷的版式、题号的格式、答题区域的横线间距。

这不是”生成了文字”。这是对真实世界的像素级记忆

这个能力带来的后果,比文字准确率本身要严重得多。

“有图有真相”的倒计时

一个能精准还原任何 UI 界面、任何排版格式、任何场景的 AI 图像生成器,意味着什么?

意味着你看到的任何截图,都可能是假的。

一张微信聊天截图,可以是 AI 生成的。一个微博热搜榜,可以是 AI 生成的。一份公司内部文件的照片,可以是 AI 生成的。一张法院判决书,可以是 AI 生成的。

过去,AI 生成图片最大的破绽就是文字错误。一个”AI 合成”的聊天截图,总能在文字细节上找到漏洞。这个漏洞现在基本堵上了。

而且 GPT Image 2 是对所有 ChatGPT 用户开放的,包括免费用户。门槛是零。任何人,不需要任何技术能力,都能生成看起来以假乱真的图片。

不需要 Photoshop,不需要 Figma,不需要任何设计工具。打开 ChatGPT,打个字,等 30 秒,图片出来了。

AI 生图的”三国杀”

GPT Image 2 不是第一个做中文渲染的 AI 生图工具,但它可能是目前做得最好的。简单对比一下当前格局:

OpenAI GPT Image 2。文字渲染最强,世界知识最广,对各种 App 界面和文档格式的还原度最高。缺点是生成速度相对较慢,风格偏写实,创意性有时不够。

Midjourney。审美天花板。画面质感、色彩表现、艺术感染力依然领先。但中文文字渲染一直是短板,短期内追不上 GPT Image 2 的文字准确率。

FLUX (Black Forest Labs)。开源阵营的代表,社区活跃,可控性强。中文字体比 Midjourney 好,但跟 GPT Image 2 比还有明显差距。优势是可以本地部署,数据隐私有保障。

三个产品,三种路线。

GPT Image 2 走的是”全能路线”:文字、画面、世界知识一个都不落。Midjourney 走的是”审美路线”:画面质感无敌,但实用工具属性弱。FLUX 走的是”开放路线”:开源可控,但整体能力还有差距。

对普通用户来说,GPT Image 2 的全面开放意味着 AI 生图不再是一个需要选择工具的技能,而是一个像搜索一样自然的基础能力

设计师要失业了吗?

每次 AI 工具升级,这个问题都会被拎出来问一遍。

我的看法没有变:不会被完全替代,但门槛会大幅降低。

以前你做一个公众号封面,需要打开 Canva 或 Figma,选模板,改文字,调颜色,导出。现在你跟 ChatGPT 说一句话就能拿到一张。

以前你做一个产品截图用于 PPT,需要真实截图或者自己画 UI。现在 AI 直接生成,比真实的还好看。

以前你做一个活动海报,需要找设计师,沟通需求,等几天交付。现在 AI 几分钟出图,质量不差。

被压缩的是”低端设计需求”的生存空间。 那些模板化的、套路化的、不需要太多创意的设计工作,确实在快速消失。

但真正的好设计,不只是”画出来”,还包括理解品牌、理解用户、理解场景、做出取舍。这部分,AI 还做不到。

一个设计师的价值,正在从”执行”转向”判断”。你能判断什么图是好图、什么设计能打动人、什么风格适合这个品牌。这个能力,目前 AI 替代不了。

不过话说回来,对于 80% 的日常设计需求,”够好”就够了。GPT Image 2 生成的图,对大多数人来说已经足够好了。

DALL-E 的退场

有一个容易被忽略的细节:OpenAI 宣布 DALL-E 2 和 DALL-E 3 将于 5 月 12 日正式停服。

从 DALL-E 2 到 GPT Image 2,OpenAI 用了三年。这三年里,AI 生图从”生成模糊的色块”进化到”生成像素级精确的中文排版”。

速度比大多数人预想的要快。

DALL-E 的退场也传递了一个信号:OpenAI 在图像生成领域选择了”大一统”路线。 不再维护多个模型,而是集中力量做一个足够强的。GPT Image 2 就是这个答案。

几个值得思考的问题

这篇文章不是为了贩卖焦虑,而是想提醒几件事:

第一,对普通用户,辨识 AI 图片的能力需要升级了。 “看文字有没有写错”这个判断方法已经不可靠了。你需要更细致的观察,或者直接放弃”以图为证”的习惯。

第二,对从业者,工具在变,但核心能力没变。 设计的核心是审美和判断力,不是操作技能。把 AI 当工具用,而不是被它替代。

第三,对平台方,深度伪造的治理难度刚刚翻倍。 当文字不再是破绽,图片鉴伪的成本会大幅上升。

第四,这件事才刚刚开始。 GPT Image 2 今天能做到 99%+ 的中文准确率,下一次升级会是什么?视频?3D?实时生成?

每次我觉得”AI 生图到头了”的时候,它就证明我错了。