最近我沉迷用AI做视频,不可自拔。。也逐渐发现了一个挺有意思的现象。就是只要画面里出现汉字,AI就很容易进入一种薛定谔的状态:远看像中文,近看是乱码;第一眼觉得没问题,暂停仔细一看,全是似是而非的“汉字”:

更离谱的是,它经常还会带点“小日子……”过得挺好的那啥的味儿。
比如我想让画面里出现“气象”两个字,结果AI经常会把“气”生成得像日语里的“気”。第一次看到的时候,我甚至怀疑:这玩意是不是偷偷调用了日文字库?群众里面有坏人啊!
后来研究了一圈,发现事情还真没这么简单。
我们平时在 Word、PPT 里输入文字,本质上其实是在“调用字体”。你输入“气象”,系统根据 Unicode 找到对应字符,再调用中文字体,把字老老实实渲染出来。整个过程是确定的,“气”就是“气”,不会突然长成别的东西。
但 AI 视频模型很多时候不是这么工作的。
它并不是像排版软件一样在“打字”,而是在“画字”。也就是说,对它来说,文字并不一定是一个有明确结构和意义的字符,而更像是画面中的一种视觉元素。
这一点其实特别关键。
人看到“气”这个字,会知道它有固定笔画、固定结构、固定读音;但AI可能只是觉得:这里需要一块“方块字风格的纹理”。于是它就开始生成一种“看起来像汉字”的东西。
所以很多时候,我们会看到一种特别诡异的状态:远看像中文,近看不认识;整体像一块文字区域,但单个字根本认不出来。那种感觉,就像AI在努力模仿文字感,但它其实并不真正理解文字。
英文其实也会出错,只不过没那么明显。因为英文就26个字母,结构简单,错了也比较容易发现。但汉字完全不一样,一个字多一笔少一笔,可能就变成另一个字,甚至直接变成一个不存在的“伪字”。
而“气”、“氣”、“気”这几个字之间,本身又存在历史和字形上的关联。
“气”是现代简体中文,“氣”是繁体字,“気”则是日语里的写法。对人来说,这几个字的区别很明确;但对AI来说,它可能只是从海量图片中学到:方块字大概长这样。
于是,它就会把这些相近的字形特征混在一起。
最终生成一个乍一看合理,但其实不准确的字。
后来我还专门去查了一下Unicode相关资料,发现这里面还有一个特别有意思的背景:中日韩文字系统本来就存在大量共享汉字。Unicode里有个概念叫CJK,其实就是Chinese、Japanese、Korean。
也就是说,在编码层面,中日韩文字原本就有一大片重叠的公共区域。
AI在训练时,很可能同时看过中文海报、简体字幕、日文广告、韩文环境里的汉字、繁体书籍、漫画封面、网页截图……这些东西在模型眼里,很可能都属于一种大致相似的方块字视觉模式。
于是,如果提示词约束不够强,它就容易生成一种特别奇怪的东西:像中文、像日文、又像乱码。
视频又会把这个问题进一步放大。
图片只需要生成一帧,但视频要连续生成几十帧甚至上百帧。镜头在移动,光影在变化,景深在波动,文字还要保持时间上的一致性,这对模型来说其实非常困难。
尤其汉字笔画又细、结构又复杂。
于是我们经常会看到一种特别魔幻的场景:第一帧还是“气”,第二帧突然变成“気”,第三帧干脆长成一个不存在的字。有时候前半秒还能看,后半秒就开始“融化”。
远看特别高级,暂停一看全是伪文字。
后来这个现象甚至让我形成了一个固定习惯:做AI视频时,千万不要把重要文字交给 AI 自己生成。尤其是书名、专家推荐语、品牌名、机构名、课程标题、二维码说明这些东西,一旦生成错,整个视频的专业感会瞬间掉下去。
所以现在我的流程基本已经固定了:AI 负责生成背景、镜头、氛围和动态效果;真正重要的文字,全部后期单独添加。这样既能保留 AI 视频的视觉冲击力,又能保证信息准确。
现在我在用即梦、可灵、Runway 这些工具时,会像祥林嫂一样,在提示词里反复念叨:不要出现任何可读文字,不要生成汉字,不要生成日文,不要生成乱码文字。
如果必须展示书籍封面或者海报,我一般会直接上传真实图片,让AI只负责让图片动起来。即便如此,最后还是得逐帧检查。因为很多时候,AI连图片中原本正确的文字都能修坏。
表面上看,“气”变成“気”,只是一个很小的问题。
但它背后其实暴露了一个更深层的事实:AI 很擅长生成逼真的东西,但是再逼真,毕竟还不是真的。
它可以生成电影级光影、复杂镜头、逼真的人物和城市;但却可能在一个小小的汉字上翻车。某种意义上,这些“伪汉字”其实像一个窗口,让我们第一次非常直观地看到:AI 也许已经很会模仿世界,但它离真正理解世界,可能还有一段距离。
夜雨聆风