AI 生图终于认字了:GPT Image 2 中文实测,＂有图有真相＂还剩多少命-夜雨聆风

AI 生图终于认字了:GPT Image 2 中文实测,＂有图有真相＂还剩多少命

4月20日下午5点，ChatGPT 全量推送了一个更新。

所有用户，包括免费用户，打开对话框就能用。我第一时间跑了几十组测试，从书法到宋体排版、从抖音 UI 到小红书界面、从高考英语试卷到游戏截图。

结论只有一句话：AI 生图的”文盲时代”结束了。

先看几张图

我让 GPT Image 2 生成一个”仿宋体排版的中文简历”，结果是这样的：

一份格式工整、字体清晰的中文简历。段落缩进正确，标点使用规范，连字号层级都对。你把它截图发到群里，没人能第一眼看出这是 AI 生成的。

再试一个更狠的：微博热搜榜截图。

时间戳、热搜标题、排名、热度数字、广告位。全部正确，全部中文。不是那种”每个字大概对但总有一两个字是鬼画符”的水平，而是像素级的准确。

这意味着什么？

99%+ 准确率到底意味着什么

过去两年，AI 生图最大的笑话是”它不会写中文”。

Midjourney 画一扇招牌，上面写”今日营业中”，可能变成”今曰營業巾”。DALL-E 3 好一些，但遇到书法或者复杂排版还是露馅。FLUX 相对擅长英文，中文同样不稳定。

GPT Image 2 把这个问题基本解决了。

它不只是”能写字”那么简单。我测试了四个维度：

书法。 让它写”天道酬勤”的楷书，笔画结构正确，提按顿挫有味道。虽然离书法大师还差得远，但作为一幅图片里的装饰文字，完全过关。

排版。 宋体、楷体、仿宋、黑体，它分得清。字号层级、段落缩进、中英文混排，都不出错。我让它仿了一个人民教育出版社的课本页，连页码位置都对。

UI 界面。 抖音、小红书、微信、B站，这些 App 的界面它能精准还原。图标位置、文字颜色、按钮样式，都是”见过即能复现”的水平。这不是简单的文字渲染，这是世界知识。

多语言混排。 中英日韩混搭的场景也没问题。一份中英对照的合同、一张日文菜单加中文翻译，它都能处理。

99%+ 这个数字不是我瞎编的。在我跑的几十组测试里，只有极少数极端情况（比如非常小字号或非常复杂的繁体字组合）会出现轻微错误。绝大多数场景，肉眼完全分辨不出。

“见过即能复现”才是真正的杀手锏

准确写字只是表面。真正的突破在于 GPT Image 2 的世界知识能力。

什么是世界知识？就是它不只是学会了”怎么画字”，而是理解了”这个东西长什么样”。

你让它画一个”iPhone 16 Pro 的锁屏界面”，它知道灵动岛在哪里、时间显示在哪个位置、通知卡片的样式长什么样。

你让它画”抖音首页推荐流”，它知道视频是竖屏的、评论区在底部、右下角有头像和点赞按钮。

你让它画”高考英语试卷第三页”，它知道试卷的版式、题号的格式、答题区域的横线间距。

这不是”生成了文字”。这是对真实世界的像素级记忆。

这个能力带来的后果，比文字准确率本身要严重得多。

“有图有真相”的倒计时

一个能精准还原任何 UI 界面、任何排版格式、任何场景的 AI 图像生成器，意味着什么？

意味着你看到的任何截图，都可能是假的。

一张微信聊天截图，可以是 AI 生成的。一个微博热搜榜，可以是 AI 生成的。一份公司内部文件的照片，可以是 AI 生成的。一张法院判决书，可以是 AI 生成的。

过去，AI 生成图片最大的破绽就是文字错误。一个”AI 合成”的聊天截图，总能在文字细节上找到漏洞。这个漏洞现在基本堵上了。

而且 GPT Image 2 是对所有 ChatGPT 用户开放的，包括免费用户。门槛是零。任何人，不需要任何技术能力，都能生成看起来以假乱真的图片。

不需要 Photoshop，不需要 Figma，不需要任何设计工具。打开 ChatGPT，打个字，等 30 秒，图片出来了。

AI 生图的”三国杀”

GPT Image 2 不是第一个做中文渲染的 AI 生图工具，但它可能是目前做得最好的。简单对比一下当前格局：

OpenAI GPT Image 2。文字渲染最强，世界知识最广，对各种 App 界面和文档格式的还原度最高。缺点是生成速度相对较慢，风格偏写实，创意性有时不够。

Midjourney。审美天花板。画面质感、色彩表现、艺术感染力依然领先。但中文文字渲染一直是短板，短期内追不上 GPT Image 2 的文字准确率。

FLUX (Black Forest Labs)。开源阵营的代表，社区活跃，可控性强。中文字体比 Midjourney 好，但跟 GPT Image 2 比还有明显差距。优势是可以本地部署，数据隐私有保障。

三个产品，三种路线。

GPT Image 2 走的是”全能路线”：文字、画面、世界知识一个都不落。Midjourney 走的是”审美路线”：画面质感无敌，但实用工具属性弱。FLUX 走的是”开放路线”：开源可控，但整体能力还有差距。

对普通用户来说，GPT Image 2 的全面开放意味着 AI 生图不再是一个需要选择工具的技能，而是一个像搜索一样自然的基础能力。

设计师要失业了吗？

每次 AI 工具升级，这个问题都会被拎出来问一遍。

我的看法没有变：不会被完全替代，但门槛会大幅降低。

以前你做一个公众号封面，需要打开 Canva 或 Figma，选模板，改文字，调颜色，导出。现在你跟 ChatGPT 说一句话就能拿到一张。

以前你做一个产品截图用于 PPT，需要真实截图或者自己画 UI。现在 AI 直接生成，比真实的还好看。

以前你做一个活动海报，需要找设计师，沟通需求，等几天交付。现在 AI 几分钟出图，质量不差。

被压缩的是”低端设计需求”的生存空间。 那些模板化的、套路化的、不需要太多创意的设计工作，确实在快速消失。

但真正的好设计，不只是”画出来”，还包括理解品牌、理解用户、理解场景、做出取舍。这部分，AI 还做不到。

一个设计师的价值，正在从”执行”转向”判断”。你能判断什么图是好图、什么设计能打动人、什么风格适合这个品牌。这个能力，目前 AI 替代不了。

不过话说回来，对于 80% 的日常设计需求，”够好”就够了。GPT Image 2 生成的图，对大多数人来说已经足够好了。

DALL-E 的退场

有一个容易被忽略的细节：OpenAI 宣布 DALL-E 2 和 DALL-E 3 将于 5 月 12 日正式停服。

从 DALL-E 2 到 GPT Image 2，OpenAI 用了三年。这三年里，AI 生图从”生成模糊的色块”进化到”生成像素级精确的中文排版”。

速度比大多数人预想的要快。

DALL-E 的退场也传递了一个信号：OpenAI 在图像生成领域选择了”大一统”路线。 不再维护多个模型，而是集中力量做一个足够强的。GPT Image 2 就是这个答案。

几个值得思考的问题

这篇文章不是为了贩卖焦虑，而是想提醒几件事：

第一，对普通用户，辨识 AI 图片的能力需要升级了。 “看文字有没有写错”这个判断方法已经不可靠了。你需要更细致的观察，或者直接放弃”以图为证”的习惯。

第二，对从业者，工具在变，但核心能力没变。 设计的核心是审美和判断力，不是操作技能。把 AI 当工具用，而不是被它替代。

第三，对平台方，深度伪造的治理难度刚刚翻倍。 当文字不再是破绽，图片鉴伪的成本会大幅上升。

第四，这件事才刚刚开始。 GPT Image 2 今天能做到 99%+ 的中文准确率，下一次升级会是什么？视频？3D？实时生成？

每次我觉得”AI 生图到头了”的时候，它就证明我错了。