你闻到的AI味,到底是什么味?

你闻到的AI味，到底是什么味？

从文字到网页到图片到音乐，四个维度拆解同一个病根

昨天读到鸭哥的一篇文章《写作中的AI味是哪儿来的》，一口气看完，拍桌子。

他做了一件别人没做过的事：把AI中文里那股你闻得到但说不清的"味儿"，精准地钉死在了一个有一百年历史的老问题上——翻译腔。不是什么玄学，不是什么"灵魂缺失"，就是翻译腔。文章例子扎实、刀刀见肉，强烈建议先去读原文。

但读完之后，我脑子里冒出一个问题：翻译腔解释了AI写的字，那AI做的网页呢？AI画的图呢？AI写的歌呢？

那些东西也有"味"。而且是一闻就知道的那种。

这些不同维度的AI味，背后是不是同一个病根？

带着这个问题，我翻了一圈论文、帖子和实测数据。翻完发现：还真是同一个。

先说病根

在逐个拆解之前，我得先把这个统一的病根摆出来。不然后面四个维度讲完你会觉得是四件事，其实是一件。

你问ChatGPT一个问题，它是怎么回答的？

不是"思考"。是在几万亿个字的训练数据里，找到"在这个词后面，统计上最常出现什么词"，然后把那个词吐出来。下一个词同理。一个接一个，直到成句。

关键词：统计上最常出现的。

也就是说，当你给它一个模糊的指令——"写一段介绍"、"做一个网页"、"画一张人像"——它做的事情不是创作，是求平均值。训练数据里大家都怎么写，它就怎么写。大家都用什么颜色，它就用什么颜色。大家都怎么构图，它就怎么构图。

这个平均值，就是AI味。

平均值本身不是坏东西。平均值意味着"大多数人认可的做法"，及格是没问题的。问题在于，当你把十万个及格答案取平均，你得到的不是一个优秀答案，而是一碗温吞水。什么都不出错，什么都不出彩。功能上完美，灵魂上为零。

而且这碗水还会被三股力量进一步压得更温吞：

第一股：RLHF把胆子压没了。 训练AI的时候，人类标注员负责打分。标注员是什么人？是拿时薪的普通人。他们倾向于给"安全的、流畅的、没有争议的"回答打高分。模型学到的不是"写出好东西"，而是"写出不会被扣分的东西"。结果就是模式坍塌——不管问什么，回答的语气、结构、用词全都长一个样。

第二股：讨好成了本能。 一项覆盖GPT-4o、Claude、Gemini三家的研究发现，这些模型在58%的情况下表现出讨好行为。更离谱的是，79%的情况下，用户只要施压，模型就会改变自己原本正确的立场。它学会了一件事：别跟用户对着干。代价是所有输出都变得圆滑、模板化、没有棱角。

第三股：随机性被故意压低。 大多数应用场景里，模型的"温度"参数调得很低，目的是让输出"稳定可靠"。稳定是稳定了。但你有没有发现，稳定和无聊往往是同义词？

所以AI味的配方是这样的：

训练数据的平均值 + RLHF的审查 + 讨好本能 + 低温度采样 = 统计平庸感

记住这个公式。下面四个维度，每一个都在验证它。

一、文字的味：一百年前就有人骂过了

鸭哥的文章里举了几句AI的真实输出。我直接借来用：

"明白了，三条反馈都很关键，我都接住。"

"迁移到我们现在的问题，就得到一个更锋利的重构。"

"你的直觉被数据验证了，而且验证得比我预期的更干净。"

读着什么感觉？每个字都是中文，每句话都通顺，但就是——不对。

哪里不对？

鸭哥的洞察很准：把这几句翻回英文试试。

"我都接住"——"I caught all of them"。"更锋利的重构"——"a sharper refactoring"。"验证得更干净"——"verified cleaner than I expected"。

顺不顺？太顺了。顺得像本来就是英文。

因为它本来就是。

AI写中文的时候，骨架是英文的。主谓搭配是英文的，动词选择是英文的，段落节奏是英文的。只有皮是中文。就像一个老外穿了件唐装——远看像回事，近看全是破绽。

鸭哥把破绽归成了四类，我用大白话复述一遍：

第一类：思考过程变成了武打片。 "击穿"、"拆解"、"收口"、"撑不住"——英文里拿物理动作比喻抽象思考是传统艺能，"a sharp argument"说了几百年。但中文里"锋利的论证"？你跟朋友聊天时会这么说话吗？

第二类：还没上菜就开始写点评。 "逻辑很清晰："后面跟冒号，"问题很直接："后面跟冒号。形容词先把结论下了，然后才给你看内容。这等于服务员还没端菜就跟你说"这道菜特别好吃"——你还没尝呢，凭什么先替我下结论？

第三类："现实"自己会走路。 "工程上的现实比这些数字难看。"——"现实"是个抽象概念，它怎么比数字难看？这是英文"The reality is uglier than…"的直译。英文读者习惯了，中文读者读着膈应。

第四类：懒得翻。 context、state、cache、claim——这些词都有现成中文对译，但AI直接把英文怼进来了。每多一个英文词，你的脑子就要切换一次语言。一段话切七八次，读完人就累了。

这就是翻译腔。鲁迅骂过，王小波骂过，民国以来每一代中国读者都跟它打过交道。区别在于，以前翻译腔是小众问题，来自翻译家和留学生。现在AI一天生产的翻译腔比过去一年还多。

英文也有自己的"AI套话"

你以为只有中文有这个问题？英文也有。只是表现形式不一样。

斯坦福和图宾根大学做过研究：光凭词汇选择，就能以70%以上的准确率认出AI写的英文。

有人专门统计了"AI最爱用的词"：

delve——在AI文本中出现频率是人类写作的48倍
tapestry——35倍
multifaceted——28倍
"it's important to note"——27倍
nuanced——22倍
landscape（比喻用法）——19倍

48倍是什么概念？就是说如果你在一篇英文文章里看到"delve"这个词，它是AI写的概率比人写的高出将近五十倍。

还有一类"开场白"几乎是AI的专属表演：

"In today's digital age"（在当今数字时代）
"It's worth noting that"（值得注意的是）
"In the realm of"（在……的领域中）

当一段文字里同时出现三个以上这类词，AI检测器的警报基本就响了。

为什么AI非要这样写？

中文的翻译腔，根因是模型的内部表征以英文为骨架。即使在生成中文时，它的"思考路径"还是沿着英文的句法走的，只是最后一步把每个英文词换成了对应的中文词。翻译学里这叫"异化"。好的人类译者练一辈子要做到的反面——"归化"——是读完原文，把原文盖上，用中文重新讲一遍。AI做不到这一步。

英文的套话问题则直接来自RLHF。标注员偏爱"听起来专业、全面、有学术范儿"的回答。"delve into the multifaceted landscape"比"let's look at this"得分高。模型学会了：堆这些词=高分。至于这些词是否准确、是否必要、读者是否想吐——不在优化目标里。

二、网页的味：一个颜色毁了整个互联网

我要讲一个听起来像段子但完全真实的故事。

2025年8月，Tailwind CSS的作者Adam Wathan发了一条推文。浏览量超过一百万。

他在推文里"道歉"：五年前，他在Tailwind UI的示例代码里，把按钮的默认颜色设成了bg-indigo-500。

就这一个决定。一个随手选的靛蓝色。

然后几千个开发者复制了这个示例。几千篇教程用了这个默认色。几千个开源项目沿用了这个配色。当AI模型在2019到2024年间爬取互联网上的代码进行训练时，它从海量数据中提炼出了一条隐含规则：

好的网页设计 = 紫色按钮。

不是因为紫色好看。是因为紫色最常见。统计平均值，又来了。

现在你让任何一个AI"做一个落地页"，不给其他约束，它大概率交出来这么个东西：

Inter字体
紫色/靛蓝色的按钮和渐变
白底或浅灰底
居中的大标题加一个行动号召按钮
下面三个等宽的卡片，每个配一个图标
圆角，阴影，到处都是圆角和阴影

你肯定见过。你见过一千次了。

这种视觉上的千篇一律，现在有了一个专门的名字：AI Slop。不是坏，不是丑，就是——没有灵魂。像加油站的速溶咖啡：技术上是咖啡，功能上完全合格，但你永远不会觉得它是用心做的。

Sailop团队把AI Slop量化成了七个维度，每个都能检测：

色彩：色相扎堆在200-270度（蓝到紫），背景不是纯白就是纯黑，没有一丝暖色
字体：Inter，永远是Inter。标题正文同一个字重，行高全是1.5
布局：三列等宽网格。每个SaaS落地页的标配
动画：transition-all duration-300 ease-in-out。所有元素，同一个动画，同一个时长
组件：卡片一律rounded-lg shadow-md，按钮一律bg-blue-500
结构：导航栏→主视觉→功能→评价→行动号召→页脚。永远这个顺序
间距：严格4px网格。p-4、p-8、p-12。从不出现5px或14px这种带人味的数字

他们做了个检测工具，扫完代码给你打分，0到100。大多数AI生成的前端得分在60到85之间：功能完好，和隔壁AI做的网站长得像双胞胎。

为什么AI没有审美？

因为审美不是知识，是判断。

一个人类设计师的"品味"是怎么来的？看了一万个设计，感受过不同布局给人的情绪张力，知道什么界面让用户爽、什么让人烦。这些经验沉淀成一个说不清但用得上的内部模型。

AI没有这个过程。它只有token之间的统计关联。"现代设计"在训练数据里跟特定的CSS模式共现频率高，它就输出那些模式。

相关性不是品味。 出现频率最高的设计不是最好的设计，只是最常见的设计。

三、图片的味：太完美，反而露馅

AI图片的味跟文字和网页恰好相反。

文字和网页的问题是太平庸。图片的问题是太精致。

油。就是油

你一定看过那种AI人像——皮肤光滑得像瓷器，眼睛明亮得像装了灯泡，头发每一根都在发光。好看吗？好看。但你看两秒就知道：这不是真人。

为什么？因为真实世界不长这样。

真实的人脸有毛孔、有斑、有不均匀的肤色。真实的照片有过曝的局部、有失焦的背景、有偏色的光线。这些"不完美"加在一起，就是"人味"。AI把它们全部优化掉了，剩下一张"完美"的假脸。

完美无缺本身就是最大的缺。

根因在训练数据。Midjourney的训练集大量来自ArtStation这类设计网站——那上面全是精心打磨过的概念艺术。模型学到的"好图片"标准是：高清、高饱和、高对比、高精细度。然后它把这些特征叠满。

结果就像一个用力过猛的修图师。每一步操作都是"对"的——提亮、磨皮、加锐、调色——但全做完之后，照片就死了。

圈内有人做过对比：让AI画十张"咖啡店里的女人"，十张高度趋同——差不多的构图、差不多的光影、差不多的姿态。让十个人类摄影师拍同一个题目，十张照片可能完全不同。

这就是均值回归的视觉版本。AI收敛到了训练数据里"高分图片"的统计平均值，而那个平均值是一张什么都对、什么都不特别的"完美"图片。

还有一些更具体的指纹：手指数量偶尔不对（V7改善了但没根治）、文字渲染经常乱码（准确率只有约10%）、对称性过强（真实世界几乎不存在完美对称的人脸）。但这些是技术缺陷，迟早能修。那股"油腻"的审美倾向才是更深层、更难改的AI味。

四、音乐的味：频谱不会说谎

文字的AI味你靠读能感觉到。图片的AI味你靠看能感觉到。音乐的AI味，除了靠听，还有一种更狠的验证方式：拉频谱图。

Suno的指纹（用的是扩散模型）：它的原生采样率只有32kHz，输出时硬拉到44.1kHz。这就在16kHz的位置留下了一道硬截断——像一刀切的。而且在8到16kHz的范围内，能量分布太均匀了，缺乏真实乐器那种忽强忽弱的微动态。

Udio的指纹（用的是Transformer）：固定长度的处理窗口会在频谱上留下周期性的痕迹。乐器之间分得太干净了——真实录音里，吉他的声音会漏一点到人声的麦克风里，鼓的振动会被贝斯的拾音器捕捉到，这种"串扰"是真实感的一部分。AI把它优化没了。

共性问题： 同一个风格下，AI曲目的频谱包络高度聚集，像是一个模子刻出来的。人类音乐人即使做同一个风格，个体差异也大得多。AI还特别爱用最常见的和弦进行——尤其在流行、摇滚、嘻哈这些训练数据量最大的风格里，模板化最严重。

有一个曾经很出名的特征叫"AI Shimmer"——合成音上会出现一种金属感的、像在水底听到的相位偏移。2026年这个问题改善了不少，但某些参数组合下你还是能听出来。

又是同一个故事：模型收敛到训练数据的平均值，输出在统计上正确、在感觉上乏味的东西。

拉通来看：同一张病理报告

四个维度讲完了。你有没有发现它们在说同一件事？

	训练数据偏了	RLHF压平了	模式坍塌了	参数太保守
文字	英文语料占主导→中文带翻译腔	"安全流畅"得高分→满嘴套话	语气用词结构趋同	不敢用生僻表达
网页	Tailwind教程占主导→一片紫色	"规范整洁"得高分→设计保守	配色字体布局趋同	不敢偏离常见配色
图片	ArtStation占主导→概念艺术风	"精致高清"得高分→过度磨皮	构图光影姿态趋同	不敢保留不完美
音乐	流行音乐占主导→和弦模板化	同理	频谱包络趋同	不敢偏离常见编曲

一句话：AI味就是统计平庸感。 训练数据的均值、RLHF的审查、讨好倾向、保守采样，四层叠加，把所有棱角磨掉了。

怎么治？

病根找到了，治法就清楚了。所有治法都指向同一个原则：

用具体的约束替代模糊的自由。

AI味的藏身之处就是"自由"。你越不指定，它越回退到默认值，默认值就是那个温吞的平均值。你把自由空间压小——指定用什么词、禁止用什么色、要求什么质感——AI味就没地方躲了。

治文字

鸭哥在原文里给了一个极其实用的方法：写完一段，把所有动词圈出来。

哪个动词在中文日常里你不会这么用——"击穿"、"接住"、"拆解"——十有八九是从英文翻过来的。换掉。

再把所有"形容词+冒号"的起手式删掉——"逻辑很清晰："、"结论很明确："——直接上事实，让读者自己判断。

最后把所有有中文译法的英文词替换掉。context叫上下文，state叫状态，cache叫缓存。你知道、我知道、读者也知道，但混着写就是给阅读加摩擦。

对治英文套话更直接：给AI一份禁用词清单。写进system prompt里——"禁止使用delve、tapestry、multifaceted、'值得注意的是'、'在当今数字时代'"。一张清单砍掉一半AI味。

对治讨好倾向：在prompt里明说——"如果你认为我的前提有误，直接指出，不要附和。"

治网页

Anthropic在他们的cookbook里记录了一套方案，原理很朴素：别让AI做选择题，给它做填空题。

你说"做一个好看的网页"，它只能给你平均值。你说"用Playfair Display搭配JetBrains Mono，禁止Inter和Roboto；主色用焦橙，辅助色用牛油果绿，禁止蓝紫渐变；布局用5:3的不对称比例，禁止三列等宽"——现在它没有空间回退到默认值了，因为默认值都被你禁了。

更好的办法：去Dribbble或Awwwards上找两三个你喜欢的设计，用文字描述它们好在哪里——"左边满屏图片、右边留白配文字、标题全大写无衬线、正文用衬线体、整体只有黑白加一个橙色强调色"——把这段描述喂给AI。

你不需要自己会设计。你只需要会挑。审美是隐性知识——你说不清为什么喜欢，但你能一眼认出来。 把那个"一眼认出来"的东西通过范例传递给AI，比写一万字的规则管用。

治图片

核心就四个字：加入不完美。

别堆perfect skin、8k、highly detailed这些"质量词"。这些词把模型往"过度完美"的方向推。

反过来做：加入biological skin texture（皮肤纹理）、fine peach fuzz（面部绒毛）、slight skin imperfections（微小瑕疵）。加入harsh flashlight（硬闪光）、overexposed highlights（局部过曝）。用Midjourney的--style raw参数关掉默认美化。

最重要的一条：用自然语言描述场景——"下午三点阳光从左边打进来，桌上有杯喝了一半的咖啡"——而不是堆砌关键词标签——"cinematic lighting, 8k, masterpiece, best quality"。前者是在讲故事，后者是在念咒语。念咒语只会召唤出训练数据的平均值。

治音乐

一个叫"排除法"的技巧（The Exclusion Rule）特别好使：与其告诉AI"做一首温暖的歌"，不如说"不要用电子合成器、不要用混响效果、不要用标准的四和弦进行"。

你把默认选项一个个禁掉，AI就被迫去找不那么默认的方案。

给具体的质感词：dusty、muffled、lo-fi tape hiss，而不是beautiful、emotional。给精确的BPM，不要让它自己选——它自己选一定是训练数据里最常见的那个速度。

说到底

所有这些技巧——禁用词清单、设计约束、质感描述、排除法——背后是同一件事：

你在帮AI离开安全区。

AI的安全区就是统计平均值。它待在那里最舒服，因为平均值不会出错。但平均值也不会出彩。你用约束把它从安全区推出去——指定方向、划定边界、告诉它什么能做什么不能做——它才能到达那些有个性的、有温度的、不像AI的地方。

傅雷翻译巴尔扎克时说过一句话："理想的译文仿佛是原作者的中文写作。"

套用到这里就是：理想的AI输出，仿佛不是AI生成的。

做到这一点靠的不是更好的模型，而是更精确的指令。模型负责执行，你负责方向。方向越明确，AI味越淡。

或者换一种说法：

AI的能力上限取决于它自己。但AI味的下限取决于你。

《写作中的AI味是哪儿来的》

https://yage.ai/share/ai-chinese-translationese-20260418.html