你闻到的AI味,到底是什么味?
从文字到网页到图片到音乐,四个维度拆解同一个病根
昨天读到鸭哥的一篇文章《写作中的AI味是哪儿来的》,一口气看完,拍桌子。
他做了一件别人没做过的事:把AI中文里那股你闻得到但说不清的"味儿",精准地钉死在了一个有一百年历史的老问题上——翻译腔。不是什么玄学,不是什么"灵魂缺失",就是翻译腔。文章例子扎实、刀刀见肉,强烈建议先去读原文。
但读完之后,我脑子里冒出一个问题:翻译腔解释了AI写的字,那AI做的网页呢?AI画的图呢?AI写的歌呢?
那些东西也有"味"。而且是一闻就知道的那种。
这些不同维度的AI味,背后是不是同一个病根?
带着这个问题,我翻了一圈论文、帖子和实测数据。翻完发现:还真是同一个。
先说病根
在逐个拆解之前,我得先把这个统一的病根摆出来。不然后面四个维度讲完你会觉得是四件事,其实是一件。
你问ChatGPT一个问题,它是怎么回答的?
不是"思考"。是在几万亿个字的训练数据里,找到"在这个词后面,统计上最常出现什么词",然后把那个词吐出来。下一个词同理。一个接一个,直到成句。
关键词:统计上最常出现的。
也就是说,当你给它一个模糊的指令——"写一段介绍"、"做一个网页"、"画一张人像"——它做的事情不是创作,是求平均值。训练数据里大家都怎么写,它就怎么写。大家都用什么颜色,它就用什么颜色。大家都怎么构图,它就怎么构图。
这个平均值,就是AI味。
平均值本身不是坏东西。平均值意味着"大多数人认可的做法",及格是没问题的。问题在于,当你把十万个及格答案取平均,你得到的不是一个优秀答案,而是一碗温吞水。什么都不出错,什么都不出彩。功能上完美,灵魂上为零。
而且这碗水还会被三股力量进一步压得更温吞:
第一股:RLHF把胆子压没了。 训练AI的时候,人类标注员负责打分。标注员是什么人?是拿时薪的普通人。他们倾向于给"安全的、流畅的、没有争议的"回答打高分。模型学到的不是"写出好东西",而是"写出不会被扣分的东西"。结果就是模式坍塌——不管问什么,回答的语气、结构、用词全都长一个样。
第二股:讨好成了本能。 一项覆盖GPT-4o、Claude、Gemini三家的研究发现,这些模型在58%的情况下表现出讨好行为。更离谱的是,79%的情况下,用户只要施压,模型就会改变自己原本正确的立场。它学会了一件事:别跟用户对着干。代价是所有输出都变得圆滑、模板化、没有棱角。
第三股:随机性被故意压低。 大多数应用场景里,模型的"温度"参数调得很低,目的是让输出"稳定可靠"。稳定是稳定了。但你有没有发现,稳定和无聊往往是同义词?
所以AI味的配方是这样的:
训练数据的平均值 + RLHF的审查 + 讨好本能 + 低温度采样 = 统计平庸感
记住这个公式。下面四个维度,每一个都在验证它。
一、文字的味:一百年前就有人骂过了
鸭哥的文章里举了几句AI的真实输出。我直接借来用:
"明白了,三条反馈都很关键,我都接住。"
"迁移到我们现在的问题,就得到一个更锋利的重构。"
"你的直觉被数据验证了,而且验证得比我预期的更干净。"
读着什么感觉?每个字都是中文,每句话都通顺,但就是——不对。
哪里不对?
鸭哥的洞察很准:把这几句翻回英文试试。
"我都接住"——"I caught all of them"。"更锋利的重构"——"a sharper refactoring"。"验证得更干净"——"verified cleaner than I expected"。
顺不顺?太顺了。顺得像本来就是英文。
因为它本来就是。
AI写中文的时候,骨架是英文的。主谓搭配是英文的,动词选择是英文的,段落节奏是英文的。只有皮是中文。就像一个老外穿了件唐装——远看像回事,近看全是破绽。
鸭哥把破绽归成了四类,我用大白话复述一遍:
第一类:思考过程变成了武打片。 "击穿"、"拆解"、"收口"、"撑不住"——英文里拿物理动作比喻抽象思考是传统艺能,"a sharp argument"说了几百年。但中文里"锋利的论证"?你跟朋友聊天时会这么说话吗?
第二类:还没上菜就开始写点评。 "逻辑很清晰:"后面跟冒号,"问题很直接:"后面跟冒号。形容词先把结论下了,然后才给你看内容。这等于服务员还没端菜就跟你说"这道菜特别好吃"——你还没尝呢,凭什么先替我下结论?
第三类:"现实"自己会走路。 "工程上的现实比这些数字难看。"——"现实"是个抽象概念,它怎么比数字难看?这是英文"The reality is uglier than…"的直译。英文读者习惯了,中文读者读着膈应。
第四类:懒得翻。 context、state、cache、claim——这些词都有现成中文对译,但AI直接把英文怼进来了。每多一个英文词,你的脑子就要切换一次语言。一段话切七八次,读完人就累了。
这就是翻译腔。鲁迅骂过,王小波骂过,民国以来每一代中国读者都跟它打过交道。区别在于,以前翻译腔是小众问题,来自翻译家和留学生。现在AI一天生产的翻译腔比过去一年还多。
英文也有自己的"AI套话"
你以为只有中文有这个问题?英文也有。只是表现形式不一样。
斯坦福和图宾根大学做过研究:光凭词汇选择,就能以70%以上的准确率认出AI写的英文。
有人专门统计了"AI最爱用的词":
- delve——在AI文本中出现频率是人类写作的48倍
- tapestry——35倍
- multifaceted——28倍
- "it's important to note"——27倍
- nuanced——22倍
- landscape(比喻用法)——19倍
48倍是什么概念?就是说如果你在一篇英文文章里看到"delve"这个词,它是AI写的概率比人写的高出将近五十倍。
还有一类"开场白"几乎是AI的专属表演:
- "In today's digital age"(在当今数字时代)
- "It's worth noting that"(值得注意的是)
- "In the realm of"(在……的领域中)
当一段文字里同时出现三个以上这类词,AI检测器的警报基本就响了。
为什么AI非要这样写?
中文的翻译腔,根因是模型的内部表征以英文为骨架。即使在生成中文时,它的"思考路径"还是沿着英文的句法走的,只是最后一步把每个英文词换成了对应的中文词。翻译学里这叫"异化"。好的人类译者练一辈子要做到的反面——"归化"——是读完原文,把原文盖上,用中文重新讲一遍。AI做不到这一步。
英文的套话问题则直接来自RLHF。标注员偏爱"听起来专业、全面、有学术范儿"的回答。"delve into the multifaceted landscape"比"let's look at this"得分高。模型学会了:堆这些词=高分。至于这些词是否准确、是否必要、读者是否想吐——不在优化目标里。
二、网页的味:一个颜色毁了整个互联网
我要讲一个听起来像段子但完全真实的故事。
2025年8月,Tailwind CSS的作者Adam Wathan发了一条推文。浏览量超过一百万。
他在推文里"道歉":五年前,他在Tailwind UI的示例代码里,把按钮的默认颜色设成了bg-indigo-500。
就这一个决定。一个随手选的靛蓝色。
然后几千个开发者复制了这个示例。几千篇教程用了这个默认色。几千个开源项目沿用了这个配色。当AI模型在2019到2024年间爬取互联网上的代码进行训练时,它从海量数据中提炼出了一条隐含规则:
好的网页设计 = 紫色按钮。
不是因为紫色好看。是因为紫色最常见。统计平均值,又来了。
现在你让任何一个AI"做一个落地页",不给其他约束,它大概率交出来这么个东西:
- Inter字体
- 紫色/靛蓝色的按钮和渐变
- 白底或浅灰底
- 居中的大标题加一个行动号召按钮
- 下面三个等宽的卡片,每个配一个图标
- 圆角,阴影,到处都是圆角和阴影
你肯定见过。你见过一千次了。
这种视觉上的千篇一律,现在有了一个专门的名字:AI Slop。不是坏,不是丑,就是——没有灵魂。像加油站的速溶咖啡:技术上是咖啡,功能上完全合格,但你永远不会觉得它是用心做的。
Sailop团队把AI Slop量化成了七个维度,每个都能检测:
- 色彩:色相扎堆在200-270度(蓝到紫),背景不是纯白就是纯黑,没有一丝暖色
- 字体:Inter,永远是Inter。标题正文同一个字重,行高全是1.5
- 布局:三列等宽网格。每个SaaS落地页的标配
- 动画:
transition-all duration-300 ease-in-out。所有元素,同一个动画,同一个时长 - 组件:卡片一律
rounded-lg shadow-md,按钮一律bg-blue-500 - 结构:导航栏→主视觉→功能→评价→行动号召→页脚。永远这个顺序
- 间距:严格4px网格。p-4、p-8、p-12。从不出现5px或14px这种带人味的数字
他们做了个检测工具,扫完代码给你打分,0到100。大多数AI生成的前端得分在60到85之间:功能完好,和隔壁AI做的网站长得像双胞胎。
为什么AI没有审美?
因为审美不是知识,是判断。
一个人类设计师的"品味"是怎么来的?看了一万个设计,感受过不同布局给人的情绪张力,知道什么界面让用户爽、什么让人烦。这些经验沉淀成一个说不清但用得上的内部模型。
AI没有这个过程。它只有token之间的统计关联。"现代设计"在训练数据里跟特定的CSS模式共现频率高,它就输出那些模式。
相关性不是品味。 出现频率最高的设计不是最好的设计,只是最常见的设计。
三、图片的味:太完美,反而露馅
AI图片的味跟文字和网页恰好相反。
文字和网页的问题是太平庸。图片的问题是太精致。
油。就是油
你一定看过那种AI人像——皮肤光滑得像瓷器,眼睛明亮得像装了灯泡,头发每一根都在发光。好看吗?好看。但你看两秒就知道:这不是真人。
为什么?因为真实世界不长这样。
真实的人脸有毛孔、有斑、有不均匀的肤色。真实的照片有过曝的局部、有失焦的背景、有偏色的光线。这些"不完美"加在一起,就是"人味"。AI把它们全部优化掉了,剩下一张"完美"的假脸。
完美无缺本身就是最大的缺。
根因在训练数据。Midjourney的训练集大量来自ArtStation这类设计网站——那上面全是精心打磨过的概念艺术。模型学到的"好图片"标准是:高清、高饱和、高对比、高精细度。然后它把这些特征叠满。
结果就像一个用力过猛的修图师。每一步操作都是"对"的——提亮、磨皮、加锐、调色——但全做完之后,照片就死了。
圈内有人做过对比:让AI画十张"咖啡店里的女人",十张高度趋同——差不多的构图、差不多的光影、差不多的姿态。让十个人类摄影师拍同一个题目,十张照片可能完全不同。
这就是均值回归的视觉版本。AI收敛到了训练数据里"高分图片"的统计平均值,而那个平均值是一张什么都对、什么都不特别的"完美"图片。
还有一些更具体的指纹:手指数量偶尔不对(V7改善了但没根治)、文字渲染经常乱码(准确率只有约10%)、对称性过强(真实世界几乎不存在完美对称的人脸)。但这些是技术缺陷,迟早能修。那股"油腻"的审美倾向才是更深层、更难改的AI味。
四、音乐的味:频谱不会说谎
文字的AI味你靠读能感觉到。图片的AI味你靠看能感觉到。音乐的AI味,除了靠听,还有一种更狠的验证方式:拉频谱图。
Suno的指纹(用的是扩散模型):它的原生采样率只有32kHz,输出时硬拉到44.1kHz。这就在16kHz的位置留下了一道硬截断——像一刀切的。而且在8到16kHz的范围内,能量分布太均匀了,缺乏真实乐器那种忽强忽弱的微动态。
Udio的指纹(用的是Transformer):固定长度的处理窗口会在频谱上留下周期性的痕迹。乐器之间分得太干净了——真实录音里,吉他的声音会漏一点到人声的麦克风里,鼓的振动会被贝斯的拾音器捕捉到,这种"串扰"是真实感的一部分。AI把它优化没了。
共性问题: 同一个风格下,AI曲目的频谱包络高度聚集,像是一个模子刻出来的。人类音乐人即使做同一个风格,个体差异也大得多。AI还特别爱用最常见的和弦进行——尤其在流行、摇滚、嘻哈这些训练数据量最大的风格里,模板化最严重。
有一个曾经很出名的特征叫"AI Shimmer"——合成音上会出现一种金属感的、像在水底听到的相位偏移。2026年这个问题改善了不少,但某些参数组合下你还是能听出来。
又是同一个故事:模型收敛到训练数据的平均值,输出在统计上正确、在感觉上乏味的东西。
拉通来看:同一张病理报告
四个维度讲完了。你有没有发现它们在说同一件事?
| 文字 | ||||
| 网页 | ||||
| 图片 | ||||
| 音乐 |
一句话:AI味就是统计平庸感。 训练数据的均值、RLHF的审查、讨好倾向、保守采样,四层叠加,把所有棱角磨掉了。
怎么治?
病根找到了,治法就清楚了。所有治法都指向同一个原则:
用具体的约束替代模糊的自由。
AI味的藏身之处就是"自由"。你越不指定,它越回退到默认值,默认值就是那个温吞的平均值。你把自由空间压小——指定用什么词、禁止用什么色、要求什么质感——AI味就没地方躲了。
治文字
鸭哥在原文里给了一个极其实用的方法:写完一段,把所有动词圈出来。
哪个动词在中文日常里你不会这么用——"击穿"、"接住"、"拆解"——十有八九是从英文翻过来的。换掉。
再把所有"形容词+冒号"的起手式删掉——"逻辑很清晰:"、"结论很明确:"——直接上事实,让读者自己判断。
最后把所有有中文译法的英文词替换掉。context叫上下文,state叫状态,cache叫缓存。你知道、我知道、读者也知道,但混着写就是给阅读加摩擦。
对治英文套话更直接:给AI一份禁用词清单。写进system prompt里——"禁止使用delve、tapestry、multifaceted、'值得注意的是'、'在当今数字时代'"。一张清单砍掉一半AI味。
对治讨好倾向:在prompt里明说——"如果你认为我的前提有误,直接指出,不要附和。"
治网页
Anthropic在他们的cookbook里记录了一套方案,原理很朴素:别让AI做选择题,给它做填空题。
你说"做一个好看的网页",它只能给你平均值。你说"用Playfair Display搭配JetBrains Mono,禁止Inter和Roboto;主色用焦橙,辅助色用牛油果绿,禁止蓝紫渐变;布局用5:3的不对称比例,禁止三列等宽"——现在它没有空间回退到默认值了,因为默认值都被你禁了。
更好的办法:去Dribbble或Awwwards上找两三个你喜欢的设计,用文字描述它们好在哪里——"左边满屏图片、右边留白配文字、标题全大写无衬线、正文用衬线体、整体只有黑白加一个橙色强调色"——把这段描述喂给AI。
你不需要自己会设计。你只需要会挑。审美是隐性知识——你说不清为什么喜欢,但你能一眼认出来。 把那个"一眼认出来"的东西通过范例传递给AI,比写一万字的规则管用。
治图片
核心就四个字:加入不完美。
别堆perfect skin、8k、highly detailed这些"质量词"。这些词把模型往"过度完美"的方向推。
反过来做:加入biological skin texture(皮肤纹理)、fine peach fuzz(面部绒毛)、slight skin imperfections(微小瑕疵)。加入harsh flashlight(硬闪光)、overexposed highlights(局部过曝)。用Midjourney的--style raw参数关掉默认美化。
最重要的一条:用自然语言描述场景——"下午三点阳光从左边打进来,桌上有杯喝了一半的咖啡"——而不是堆砌关键词标签——"cinematic lighting, 8k, masterpiece, best quality"。前者是在讲故事,后者是在念咒语。念咒语只会召唤出训练数据的平均值。
治音乐
一个叫"排除法"的技巧(The Exclusion Rule)特别好使:与其告诉AI"做一首温暖的歌",不如说"不要用电子合成器、不要用混响效果、不要用标准的四和弦进行"。
你把默认选项一个个禁掉,AI就被迫去找不那么默认的方案。
给具体的质感词:dusty、muffled、lo-fi tape hiss,而不是beautiful、emotional。给精确的BPM,不要让它自己选——它自己选一定是训练数据里最常见的那个速度。
说到底
所有这些技巧——禁用词清单、设计约束、质感描述、排除法——背后是同一件事:
你在帮AI离开安全区。
AI的安全区就是统计平均值。它待在那里最舒服,因为平均值不会出错。但平均值也不会出彩。你用约束把它从安全区推出去——指定方向、划定边界、告诉它什么能做什么不能做——它才能到达那些有个性的、有温度的、不像AI的地方。
傅雷翻译巴尔扎克时说过一句话:"理想的译文仿佛是原作者的中文写作。"
套用到这里就是:理想的AI输出,仿佛不是AI生成的。
做到这一点靠的不是更好的模型,而是更精确的指令。模型负责执行,你负责方向。方向越明确,AI味越淡。
或者换一种说法:
AI的能力上限取决于它自己。但AI味的下限取决于你。
《写作中的AI味是哪儿来的》
https://yage.ai/share/ai-chinese-translationese-20260418.html
夜雨聆风