——后训练才是这场战争的胜负手
谈 AI,言必称芯片、算法、算力。
这是过去三年最大的认知错位。
真正决定一个 AI 好不好用的,不是它跑在什么芯片上,也不是它用了什么架构,而是看不见的那一层——几十万标注员一条一条手把手教出来的对齐数据。
这件事,AI 公司不愿意讲,媒体不知道怎么讲,资本市场看不懂。但它是这场战争真正的胜负手。
一、AI 不是"自己学会"的
大众有一个想象:把海量文本喂给一个超级神经网络,它就自己学会了思考、推理、对话。
这是叙事,不是事实。
真实的流程是两段。第一段叫预训练——把全人类的文字喂给模型,让它学会"语言长什么样"。第二段叫后训练(包括 SFT、RLHF、宪法式 AI、安全对齐)——由几十万真人,一条一条地教它"该怎么说话、不该说什么、什么是好回答"。
OpenAI 2022 年的一篇论文揭过一次底:一个 13 亿参数的对齐模型,在用户偏好测试中胜过 1750 亿参数的纯预训练模型。参数差了 100 多倍,但小模型因为做过后训练,反而更受欢迎。
这件事的含义被严重低估了。它意味着——
把模型做大,不如把模型教好。
算力的边际收益在递减,对齐的边际收益还在上升。
ChatGPT 2022 年 11 月一夜爆红,不是因为底层模型变强了(GPT-3.5 早就存在),是因为对齐工程让它第一次会好好说话了。
二、几十万人在替 AI"打工"
这支大军的规模超出大多数人的想象。
OpenAI、Anthropic、Google 这些公司几乎不直接雇标注员,而是把任务外包给 Scale AI、Surge AI、Appen 这类专业公司。Scale AI 2024 年估值就已经达到 138 亿美元,2025 年 Meta 以 143 亿美元收购其 49% 股权时估值进一步推至 290 亿美元——光是给 AI 打数据标签这一件事,就撑起了一只巨型独角兽。
地理分布是一座金字塔:
塔尖是美国、英国的博士级专家——数学家、程序员、律师、医生,时薪 50 到 200 美元,做最难的代码标注、数学推理、医学审核。
塔身是印度、菲律宾、东欧的英语熟练标注员,时薪 5 到 25 美元,做大量通用偏好排序。
塔底是肯尼亚、乌干达、委内瑞拉的低成本审核员,时薪 1 到 2 美元,做最折磨人的工作——阅读和标注含暴力、仇恨、性虐待、自残等内容的文本片段,帮模型学会识别和拒绝这类内容。
2023 年 1 月《时代》杂志曝光过:OpenAI 通过 Sama 公司雇佣肯尼亚工人为 ChatGPT 训练安全过滤器,工人时薪在 1.32 到 2 美元之间,长期阅读包含儿童性虐待、暴力、自残等内容的文本,许多人留下了心理创伤。(这件事在 AI 伦理圈引起很大震动,但很快又被新一轮的算力新闻盖过去了。)
这就是 AI"自动智能"叙事下面的真相——每一个让你赞叹的回答背后,都有标注员的劳动。
这是一个铁的事实,
也是一个被刻意匿名化的事实。
三、芯片可以堆,算法可以抄,标注体系抄不来
这是看懂这个行业的关键。
预训练的成本主要是算力——它有摩尔定律帮忙,单位算力的价格逐年下降。DeepSeek-V3 公开论文披露的算力训练成本约 558 万美元(注意:这是 V3 那次训练的纯算力开支,不含前期研究、硬件建设、工程师薪资等),却训出了表现接近 GPT-4o 和 Claude 3.5 Sonnet 的模型。证明了这件事可以远比业界想象的便宜。
后训练的成本主要是人力——它没有摩尔定律。一个博士标注员的时薪不会因为芯片进步而下降。要做更精细的对齐,意味着雇更多更贵的人。这部分成本不仅不降,反而随对齐要求的提高而上升。
这导致一个长期趋势:
预训练的相对成本在降,
对齐的相对成本在升。
五年前是 50:1,
现在是 10:1,
未来可能是 1:1。
所以你会看到一个奇怪的现象——DeepSeek 可以便宜复现 GPT-4 的预训练,但它要复现 ChatGPT 那种"用起来就是顺手"的体验,依然很难。因为后者的护城河不是算法,是多年积累的标注流程、专家网络和方法论 know-how。这有点像美团十几年累积的上亿条真人点评数据,阿里砸钱也砸不来的一样。
这件事其实有个朴素的道理——技术的秘密往往不在技术本身,而在使用技术的手艺里。同样一把刻刀,匠人和学徒刻出来的东西天差地别。AI 也是如此——同样的 Transformer 架构,同样的几千亿参数,OpenAI 和某个三流团队做出来的产品,差的不是材料,是手艺。
这个手艺,就藏在标注体系里。
四、普通用户的真正红利在哪里
讲了这么多产业层面的事,回到一个最实际的问题——作为普通用户,你怎么用好 AI。
答案出乎很多人的意料:
本质上是当不当自己的标注员。
OpenAI 雇标注员做的事情——写示范回答、排序偏好、纠正错误、提供反馈——这些事情你完全可以自己做,而且只针对你自己的偏好。
给 AI 写一段系统提示,告诉它你的身份、你的专业、你的偏好——这是 SFT。
对 AI 的回答说"这段不好,应该这样写"——这是 RLHF。
给 AI 看几篇你的代表作,让它模仿你的风格——这是 few-shot 示范,比抽象描述风格有效十倍。
把这套方法做到极致的人,已经远远超过 99% 的 AI 用户。他们手里的 AI,和别人手里的 AI,已经不是同一个产品了。
大多数人用 AI 还停留在"问一个问题、看一个答案"的层面,得到的是所有用户的平均答案——一份温吞水。少数人把自己的偏好、领域知识、思维框架、写作风格显性化地教给 AI,得到的是为他一个人定制的智能助手。
这中间的差距,(在我看来)是 AI 时代最大也最被忽视的个人红利。
五、下一波竞争发生在哪里
明白了上述四点,再看 AI 行业的未来,视角会完全不同。
未来三到五年,行业的竞争焦点会从"算力军备竞赛"转向"标注质量军备竞赛"。
表现形式有几个:
第一,领域专家的争夺。前沿数学家、顶级程序员、资深律师、持照医生,他们的时间会被 AI 公司高价收购。Scale AI 旗下 Outlier 平台已经在做这件事,给 ML/AI 博士标注员开出最高每小时 150 美元的费率,专业领域顶尖人才更高。
第二,AI 标 AI 的兴起。普通标注员判断不了 GPT-5 级别模型的输出质量了,未来会出现"用 GPT-5 给 GPT-6 当老师"的局面。Anthropic 的宪法式 AI(RLAIF)就是这条路。这会大幅降低对齐成本,但也会带来新的问题——AI 自己教自己,会不会形成认知闭环。
第三,可验证奖励的强化学习。在数学、代码这类有标准答案的领域,用程序自动判分代替人工,做大规模强化学习。o1、DeepSeek-R1、Claude 的扩展思考能力,都走这条路。这是后训练的新前沿。
第四,个性化对齐的爆发。通用 AI 的对齐做到一定程度就会触顶——再标也是平均人的偏好。真正的增量在让每个用户的 AI 贴合每个用户。Project、Custom GPT、本地记忆、Skills——这些功能的本质都是给个人用户做对齐工具。
这四条路线,没有一条主要靠芯片。它们都发生在算力之上、应用之下的那一层——后训练的层。
六、回到一个简单的判断
谈 AI 谈得最热的人,往往是离 AI 最远的人。
他们谈黄仁勋,谈 H100,谈万亿参数。这些是真的,但只是冰山露出水面的那一角。
水面之下,是几十万人在标数据、是博士级专家在写示范、是审核员在看暴力内容、是工程师在调奖励模型、是产品经理在收集用户反馈——这些事每天都在发生,撑起了你看到的那个会聊天的"智能"。
看懂这一层,你才能看懂这个行业。
看懂这一层,你才能看懂自己手里的 AI——它不是一个神秘的盒子,它是一个被几十万人手把手教出来的、还可以继续被你教下去的工具。
不是 GPU,
是愿意认真告诉 AI"什么是好回答"的人。
夜雨聆风