AI为什么总把汉字写成“伪汉字”,甚至日语?

最近我沉迷用AI做视频，不可自拔。。也逐渐发现了一个挺有意思的现象。就是只要画面里出现汉字，AI就很容易进入一种薛定谔的状态：远看像中文，近看是乱码；第一眼觉得没问题，暂停仔细一看，全是似是而非的“汉字”：

更离谱的是，它经常还会带点“小日子……”过得挺好的那啥的味儿。

比如我想让画面里出现“气象”两个字，结果AI经常会把“气”生成得像日语里的“気”。第一次看到的时候，我甚至怀疑：这玩意是不是偷偷调用了日文字库？群众里面有坏人啊！

后来研究了一圈，发现事情还真没这么简单。

我们平时在 Word、PPT 里输入文字，本质上其实是在“调用字体”。你输入“气象”，系统根据 Unicode 找到对应字符，再调用中文字体，把字老老实实渲染出来。整个过程是确定的，“气”就是“气”，不会突然长成别的东西。

但 AI 视频模型很多时候不是这么工作的。

它并不是像排版软件一样在“打字”，而是在“画字”。也就是说，对它来说，文字并不一定是一个有明确结构和意义的字符，而更像是画面中的一种视觉元素。

这一点其实特别关键。

人看到“气”这个字，会知道它有固定笔画、固定结构、固定读音；但AI可能只是觉得：这里需要一块“方块字风格的纹理”。于是它就开始生成一种“看起来像汉字”的东西。

所以很多时候，我们会看到一种特别诡异的状态：远看像中文，近看不认识；整体像一块文字区域，但单个字根本认不出来。那种感觉，就像AI在努力模仿文字感，但它其实并不真正理解文字。

英文其实也会出错，只不过没那么明显。因为英文就26个字母，结构简单，错了也比较容易发现。但汉字完全不一样，一个字多一笔少一笔，可能就变成另一个字，甚至直接变成一个不存在的“伪字”。

而“气”、“氣”、“気”这几个字之间，本身又存在历史和字形上的关联。

“气”是现代简体中文，“氣”是繁体字，“気”则是日语里的写法。对人来说，这几个字的区别很明确；但对AI来说，它可能只是从海量图片中学到：方块字大概长这样。

于是，它就会把这些相近的字形特征混在一起。

最终生成一个乍一看合理，但其实不准确的字。

后来我还专门去查了一下Unicode相关资料，发现这里面还有一个特别有意思的背景：中日韩文字系统本来就存在大量共享汉字。Unicode里有个概念叫CJK，其实就是Chinese、Japanese、Korean。

也就是说，在编码层面，中日韩文字原本就有一大片重叠的公共区域。

AI在训练时，很可能同时看过中文海报、简体字幕、日文广告、韩文环境里的汉字、繁体书籍、漫画封面、网页截图……这些东西在模型眼里，很可能都属于一种大致相似的方块字视觉模式。

于是，如果提示词约束不够强，它就容易生成一种特别奇怪的东西：像中文、像日文、又像乱码。

视频又会把这个问题进一步放大。

图片只需要生成一帧，但视频要连续生成几十帧甚至上百帧。镜头在移动，光影在变化，景深在波动，文字还要保持时间上的一致性，这对模型来说其实非常困难。

尤其汉字笔画又细、结构又复杂。

于是我们经常会看到一种特别魔幻的场景：第一帧还是“气”，第二帧突然变成“気”，第三帧干脆长成一个不存在的字。有时候前半秒还能看，后半秒就开始“融化”。

远看特别高级，暂停一看全是伪文字。

后来这个现象甚至让我形成了一个固定习惯：做AI视频时，千万不要把重要文字交给 AI 自己生成。尤其是书名、专家推荐语、品牌名、机构名、课程标题、二维码说明这些东西，一旦生成错，整个视频的专业感会瞬间掉下去。

所以现在我的流程基本已经固定了：AI 负责生成背景、镜头、氛围和动态效果；真正重要的文字，全部后期单独添加。这样既能保留 AI 视频的视觉冲击力，又能保证信息准确。

现在我在用即梦、可灵、Runway 这些工具时，会像祥林嫂一样，在提示词里反复念叨：不要出现任何可读文字，不要生成汉字，不要生成日文，不要生成乱码文字。

如果必须展示书籍封面或者海报，我一般会直接上传真实图片，让AI只负责让图片动起来。即便如此，最后还是得逐帧检查。因为很多时候，AI连图片中原本正确的文字都能修坏。

表面上看，“气”变成“気”，只是一个很小的问题。

但它背后其实暴露了一个更深层的事实：AI 很擅长生成逼真的东西，但是再逼真，毕竟还不是真的。

它可以生成电影级光影、复杂镜头、逼真的人物和城市；但却可能在一个小小的汉字上翻车。某种意义上，这些“伪汉字”其实像一个窗口，让我们第一次非常直观地看到：AI 也许已经很会模仿世界，但它离真正理解世界，可能还有一段距离。