在OpenAI修中文的那个人,修的不是中文-夜雨聆风

在OpenAI修中文的那个人,修的不是中文

今天看到很多号开始转载陈博远大佬分享在某问答平台的一篇文章，标题叫「我在OpenAI修中文」。

拜读之后颇为感慨。

这篇文章的背景是，4月21日OpenAI发布了GPT Image 2，Image Arena登顶，1512分，领先第二名242分，历史最大分差。中文渲染准确率从「鬼画符」直接飙到99%以上。

但让我感慨的不是这些数字。

一个无锡人站在Sam Altman旁边

GPT Image 2的发布会上，Sam Altman旁边站着一个年轻的中国人。

他不是硅谷媒体熟脸，也不是OpenAI高管。他叫陈博远，来自无锡，MIT博士，OpenAI研究科学家。更关键的是，这次GPT Image 2最核心的训练工作，就是他做的。

发布会后半节，陈博远用中文做了一段演示。他给家乡无锡做了一张城市名片，上面的中文清晰、工整，笔画结构完全正确。

然后他在知乎发了一篇帖子，标题叫「我在OpenAI修中文」。

这个标题很有意思。注意他用的是「修」，不是「加」。

「加」意味着原来没有，现在装上去一个新功能。「修」意味着原来有问题，现在把它改对了。

这个字的选择，其实暗含了GPT Image 2最核心的技术洞察。

不是「翻译」问题，是「架构」问题

在GPT Image 2之前，AI生图对中文是什么水平？

你让它做一张中文课程封面，它可能把「人工智能」写成像字但不是字的一堆笔画。你让它做一张产品海报，上面的价格标签和参数表大概率是乱码。

这不是因为AI「不懂中文」。GPT-4的中文能力早就很强了。

问题出在架构上。

此前主流的AI生图模型用的是扩散模型。扩散模型的工作原理是「去噪」，从一张充满随机噪声的图开始，一步步把噪声去掉，最终得到一张清晰的图。

这个过程中，文字是被当作「图形」来处理的。模型不是在「写」字，而是在「画」字的形状。对英文字母来说这还行，26个字母形状简单，画出来八九不离十。但中文有几千个常用字，笔画结构复杂，把每个字都「画」对，难度完全不在一个量级。

所以不是AI的中文能力不行，是它生成图像的方式就不支持精确的文字渲染。这是架构层面的问题，不是数据层面的问题。

GPT Image 2做了一次根本性的架构切换。从扩散模型换成了自回归多模态架构。

简单说，它不再把图像当「噪声图」去去噪了，而是把图像当「语言」去写。图像被离散化为Image Token，和文本Token在同一个序列空间里预测。模型不是在画字，是在写字。

这就是为什么陈博远说的是「修」中文。他修的不是翻译模块，不是语言包，而是整个图像生成的底层架构。架构对了，中文自然就对了。

从「气氛图」到「成品图」

这块其实挺值得展开聊聊。

在GPT Image 2之前，AI生图在整个设计行业里的定位是什么？是「气氛图」。

什么意思呢？设计师用AI生成一张概念图，拿去给客户看方向。客户觉得方向不错，然后设计师再用Photoshop把文字、排版、品牌元素一个个补上去。AI负责「感觉」，人负责「精确」。

为什么？因为AI生成的图里，文字不可靠、排版不可靠、信息层级不可靠。你让它做一张「双十一促销海报」，它能给你一张很好看的底图，但上面的「满300减50」「限时抢购」这些关键信息，大概率是乱码或者错字。

所以AI生图的可用阶段一直停留在「初稿设计」，到不了「成品产出」。

GPT Image 2把这个边界往前推了一大步。

中文渲染99%准确率说明了什么？几百个汉字压在一张竖版长图里，字号、间距、对齐、色彩层级全都稳得住。AI可以直接产出带完整文字信息的商用海报、产品包装、APP界面、信息图表。

OpenAI的产品负责人Adele Li说了一句很到位的话，「图像是一种语言，而不是装饰」。

以前AI把图像当装饰，所以文字是多余的。现在AI把图像当语言，文字就成了语言的一部分。

13个人，4个月

说到这我想岔开聊一句。

GPT Image 2是13个人的团队，用4个月做出来的。

13个人。放在国内任何一家大厂，这可能只是一个子项目的配置。但这个团队做出了一个在Image Arena上碾压所有竞品、领先第二名242分的产品。

而且这个团队里有一个来自无锡的中国人，站在Sam Altman旁边用中文做产品演示。

这块其实折射出一个很有意思的趋势。AI产品的竞争力，越来越不取决于你有多少人、砸了多少钱，而取决于你选了什么架构、走了什么路线。

扩散模型路线已经卷了两三年，Midjourney、Stable Diffusion、DALL-E都在这条路上迭代。大家比的是谁的画质更细腻、谁的审美更高级。但文字渲染这个「老大难」问题，在这条路上几乎看不到解法。

GPT Image 2直接换了一条路。不卷画质了，卷架构。用自回归的方式重新定义图像生成。

结果13个人，4个月，把一个行业级难题给解决了。

AI的全球化，进入了一个新阶段

顺着上面的思路再聊聊。

过去几年，AI产品的国际化主要做一件事，翻译界面语言。把英文的UI翻译成中文、日文、韩文、阿拉伯文，然后推向全球市场。

这够了吗？当AI只是个聊天工具的时候，够了。你用中文问它问题，它用中文回答你，体验没什么问题。

但当AI开始生成内容的时候，事情就不一样了。

AI生图、AI生视频、AI生成PPT，这些场景里，AI输出的不只是文字，还有视觉内容。一张面向中国市场的促销海报，上面的中文不只是「界面语言」，而是产品信息的载体。一个面向日本市场的APP界面，上面的日文不只是「翻译」，而是功能说明。

如果AI生成的视觉内容里，非拉丁文字全是乱码，那它的「全球化」就是假的。

GPT Image 2把中文渲染准确率拉到99%以上，同时支持日文、韩文、阿拉伯文、印地语、孟加拉语。这不是在修一个bug，这是在打开一扇门。

当AI能够精确地用每一种语言生成视觉内容，AI产品的全球化才真正从「工具可用」进入了「内容可用」的阶段。

陈博远在知乎那篇帖子里说，「很高兴这次修好了模型的中文渲染」。这个「修」字，修的不只是中文字形，修的是AI理解世界的方式。

一个人的力量能有多大

最后聊一个可能有点感性的事。

陈博远，无锡人，MIT博士，辅修哲学。不到4年完成博士，毕业后加入OpenAI，迅速成为GPT图像生成核心成员。发布会上和Sam Altman并肩站立，用中文向全世界展示AI生图的能力。

他不是高管，不是创始人，是一个研究科学家。但他做的这件事，可能比很多高管做的决策影响更大。

因为他解决了一个所有人都能看到、但没有人从架构层面去解决的问题。

扩散模型写不对字，整个行业都知道。但大家的反应是「这是已知局限，先用着吧」。陈博远的反应是「换个架构试试」。

13个人，4个月，换了一种根本不同的技术路线，把一个行业级难题解决了。

这让我想起产品经理常说的一句话，不要在错误的框架里做优化。当你发现一个问题怎么改都改不好的时候，也许不是你的能力不够，而是你的框架不对。

GPT Image 2的中文渲染，不是在扩散模型的框架里把字画得更像一点。是直接换了一个框架，让字不再需要「画」，而是需要「写」。

有时候，最好的优化不是优化，是重构。