乐于分享
好东西不私藏

在OpenAI修中文的那个人,修的不是中文

在OpenAI修中文的那个人,修的不是中文

今天看到很多号开始转载陈博远大佬分享在某问答平台的一篇文章,标题叫「我在OpenAI修中文」。

拜读之后颇为感慨。

这篇文章的背景是,4月21日OpenAI发布了GPT Image 2,Image Arena登顶,1512分,领先第二名242分,历史最大分差。中文渲染准确率从「鬼画符」直接飙到99%以上。

但让我感慨的不是这些数字。

一个无锡人站在Sam Altman旁边

GPT Image 2的发布会上,Sam Altman旁边站着一个年轻的中国人。

他不是硅谷媒体熟脸,也不是OpenAI高管。他叫陈博远,来自无锡,MIT博士,OpenAI研究科学家。更关键的是,这次GPT Image 2最核心的训练工作,就是他做的。

发布会后半节,陈博远用中文做了一段演示。他给家乡无锡做了一张城市名片,上面的中文清晰、工整,笔画结构完全正确。

然后他在知乎发了一篇帖子,标题叫「我在OpenAI修中文」。

这个标题很有意思。注意他用的是「修」,不是「加」。

「加」意味着原来没有,现在装上去一个新功能。「修」意味着原来有问题,现在把它改对了。

这个字的选择,其实暗含了GPT Image 2最核心的技术洞察。

不是「翻译」问题,是「架构」问题

在GPT Image 2之前,AI生图对中文是什么水平?

你让它做一张中文课程封面,它可能把「人工智能」写成像字但不是字的一堆笔画。你让它做一张产品海报,上面的价格标签和参数表大概率是乱码。

这不是因为AI「不懂中文」。GPT-4的中文能力早就很强了。

问题出在架构上。

此前主流的AI生图模型用的是扩散模型。扩散模型的工作原理是「去噪」,从一张充满随机噪声的图开始,一步步把噪声去掉,最终得到一张清晰的图。

这个过程中,文字是被当作「图形」来处理的。模型不是在「写」字,而是在「画」字的形状。对英文字母来说这还行,26个字母形状简单,画出来八九不离十。但中文有几千个常用字,笔画结构复杂,把每个字都「画」对,难度完全不在一个量级。

所以不是AI的中文能力不行,是它生成图像的方式就不支持精确的文字渲染。这是架构层面的问题,不是数据层面的问题。

GPT Image 2做了一次根本性的架构切换。从扩散模型换成了自回归多模态架构。

简单说,它不再把图像当「噪声图」去去噪了,而是把图像当「语言」去写。图像被离散化为Image Token,和文本Token在同一个序列空间里预测。模型不是在画字,是在写字。

这就是为什么陈博远说的是「修」中文。他修的不是翻译模块,不是语言包,而是整个图像生成的底层架构。架构对了,中文自然就对了。

从「气氛图」到「成品图」

这块其实挺值得展开聊聊。

在GPT Image 2之前,AI生图在整个设计行业里的定位是什么?是「气氛图」。

什么意思呢?设计师用AI生成一张概念图,拿去给客户看方向。客户觉得方向不错,然后设计师再用Photoshop把文字、排版、品牌元素一个个补上去。AI负责「感觉」,人负责「精确」。

为什么?因为AI生成的图里,文字不可靠、排版不可靠、信息层级不可靠。你让它做一张「双十一促销海报」,它能给你一张很好看的底图,但上面的「满300减50」「限时抢购」这些关键信息,大概率是乱码或者错字。

所以AI生图的可用阶段一直停留在「初稿设计」,到不了「成品产出」。

GPT Image 2把这个边界往前推了一大步。

中文渲染99%准确率说明了什么?几百个汉字压在一张竖版长图里,字号、间距、对齐、色彩层级全都稳得住。AI可以直接产出带完整文字信息的商用海报、产品包装、APP界面、信息图表。

OpenAI的产品负责人Adele Li说了一句很到位的话,「图像是一种语言,而不是装饰」。

以前AI把图像当装饰,所以文字是多余的。现在AI把图像当语言,文字就成了语言的一部分。

13个人,4个月

说到这我想岔开聊一句。

GPT Image 2是13个人的团队,用4个月做出来的。

13个人。放在国内任何一家大厂,这可能只是一个子项目的配置。但这个团队做出了一个在Image Arena上碾压所有竞品、领先第二名242分的产品。

而且这个团队里有一个来自无锡的中国人,站在Sam Altman旁边用中文做产品演示。

这块其实折射出一个很有意思的趋势。AI产品的竞争力,越来越不取决于你有多少人、砸了多少钱,而取决于你选了什么架构、走了什么路线。

扩散模型路线已经卷了两三年,Midjourney、Stable Diffusion、DALL-E都在这条路上迭代。大家比的是谁的画质更细腻、谁的审美更高级。但文字渲染这个「老大难」问题,在这条路上几乎看不到解法。

GPT Image 2直接换了一条路。不卷画质了,卷架构。用自回归的方式重新定义图像生成。

结果13个人,4个月,把一个行业级难题给解决了。

AI的全球化,进入了一个新阶段

顺着上面的思路再聊聊。

过去几年,AI产品的国际化主要做一件事,翻译界面语言。把英文的UI翻译成中文、日文、韩文、阿拉伯文,然后推向全球市场。

这够了吗?当AI只是个聊天工具的时候,够了。你用中文问它问题,它用中文回答你,体验没什么问题。

但当AI开始生成内容的时候,事情就不一样了。

AI生图、AI生视频、AI生成PPT,这些场景里,AI输出的不只是文字,还有视觉内容。一张面向中国市场的促销海报,上面的中文不只是「界面语言」,而是产品信息的载体。一个面向日本市场的APP界面,上面的日文不只是「翻译」,而是功能说明。

如果AI生成的视觉内容里,非拉丁文字全是乱码,那它的「全球化」就是假的。

GPT Image 2把中文渲染准确率拉到99%以上,同时支持日文、韩文、阿拉伯文、印地语、孟加拉语。这不是在修一个bug,这是在打开一扇门。

当AI能够精确地用每一种语言生成视觉内容,AI产品的全球化才真正从「工具可用」进入了「内容可用」的阶段。

陈博远在知乎那篇帖子里说,「很高兴这次修好了模型的中文渲染」。这个「修」字,修的不只是中文字形,修的是AI理解世界的方式。

一个人的力量能有多大

最后聊一个可能有点感性的事。

陈博远,无锡人,MIT博士,辅修哲学。不到4年完成博士,毕业后加入OpenAI,迅速成为GPT图像生成核心成员。发布会上和Sam Altman并肩站立,用中文向全世界展示AI生图的能力。

他不是高管,不是创始人,是一个研究科学家。但他做的这件事,可能比很多高管做的决策影响更大。

因为他解决了一个所有人都能看到、但没有人从架构层面去解决的问题。

扩散模型写不对字,整个行业都知道。但大家的反应是「这是已知局限,先用着吧」。陈博远的反应是「换个架构试试」。

13个人,4个月,换了一种根本不同的技术路线,把一个行业级难题解决了。

这让我想起产品经理常说的一句话,不要在错误的框架里做优化。当你发现一个问题怎么改都改不好的时候,也许不是你的能力不够,而是你的框架不对。

GPT Image 2的中文渲染,不是在扩散模型的框架里把字画得更像一点。是直接换了一个框架,让字不再需要「画」,而是需要「写」。

有时候,最好的优化不是优化,是重构。