AI 真正的护城河,藏在几十万标注员的手上

——后训练才是这场战争的胜负手

谈 AI，言必称芯片、算法、算力。

这是过去三年最大的认知错位。

真正决定一个 AI 好不好用的，不是它跑在什么芯片上，也不是它用了什么架构，而是看不见的那一层——几十万标注员一条一条手把手教出来的对齐数据。

这件事，AI 公司不愿意讲，媒体不知道怎么讲，资本市场看不懂。但它是这场战争真正的胜负手。

一、AI 不是"自己学会"的

大众有一个想象：把海量文本喂给一个超级神经网络，它就自己学会了思考、推理、对话。

这是叙事，不是事实。

真实的流程是两段。第一段叫预训练——把全人类的文字喂给模型，让它学会"语言长什么样"。第二段叫后训练（包括 SFT、RLHF、宪法式 AI、安全对齐）——由几十万真人，一条一条地教它"该怎么说话、不该说什么、什么是好回答"。

OpenAI 2022 年的一篇论文揭过一次底：一个 13 亿参数的对齐模型，在用户偏好测试中胜过 1750 亿参数的纯预训练模型。参数差了 100 多倍，但小模型因为做过后训练，反而更受欢迎。

这件事的含义被严重低估了。它意味着——

把模型做大，不如把模型教好。
算力的边际收益在递减，对齐的边际收益还在上升。

ChatGPT 2022 年 11 月一夜爆红，不是因为底层模型变强了（GPT-3.5 早就存在），是因为对齐工程让它第一次会好好说话了。

二、几十万人在替 AI"打工"

这支大军的规模超出大多数人的想象。

OpenAI、Anthropic、Google 这些公司几乎不直接雇标注员，而是把任务外包给 Scale AI、Surge AI、Appen 这类专业公司。Scale AI 2024 年估值就已经达到 138 亿美元，2025 年 Meta 以 143 亿美元收购其 49% 股权时估值进一步推至 290 亿美元——光是给 AI 打数据标签这一件事，就撑起了一只巨型独角兽。

地理分布是一座金字塔：

塔尖是美国、英国的博士级专家——数学家、程序员、律师、医生，时薪 50 到 200 美元，做最难的代码标注、数学推理、医学审核。

塔身是印度、菲律宾、东欧的英语熟练标注员，时薪 5 到 25 美元，做大量通用偏好排序。

塔底是肯尼亚、乌干达、委内瑞拉的低成本审核员，时薪 1 到 2 美元，做最折磨人的工作——阅读和标注含暴力、仇恨、性虐待、自残等内容的文本片段，帮模型学会识别和拒绝这类内容。

2023 年 1 月《时代》杂志曝光过：OpenAI 通过 Sama 公司雇佣肯尼亚工人为 ChatGPT 训练安全过滤器，工人时薪在 1.32 到 2 美元之间，长期阅读包含儿童性虐待、暴力、自残等内容的文本，许多人留下了心理创伤。（这件事在 AI 伦理圈引起很大震动，但很快又被新一轮的算力新闻盖过去了。）

这就是 AI"自动智能"叙事下面的真相——每一个让你赞叹的回答背后，都有标注员的劳动。

没有标注员，就没有 ChatGPT。
这是一个铁的事实，
也是一个被刻意匿名化的事实。

三、芯片可以堆，算法可以抄，标注体系抄不来

这是看懂这个行业的关键。

预训练的成本主要是算力——它有摩尔定律帮忙，单位算力的价格逐年下降。DeepSeek-V3 公开论文披露的算力训练成本约 558 万美元（注意：这是 V3 那次训练的纯算力开支，不含前期研究、硬件建设、工程师薪资等），却训出了表现接近 GPT-4o 和 Claude 3.5 Sonnet 的模型。证明了这件事可以远比业界想象的便宜。

后训练的成本主要是人力——它没有摩尔定律。一个博士标注员的时薪不会因为芯片进步而下降。要做更精细的对齐，意味着雇更多更贵的人。这部分成本不仅不降，反而随对齐要求的提高而上升。

这导致一个长期趋势：

预训练的相对成本在降，
对齐的相对成本在升。
五年前是 50:1，
现在是 10:1，
未来可能是 1:1。

所以你会看到一个奇怪的现象——DeepSeek 可以便宜复现 GPT-4 的预训练，但它要复现 ChatGPT 那种"用起来就是顺手"的体验，依然很难。因为后者的护城河不是算法，是多年积累的标注流程、专家网络和方法论 know-how。这有点像美团十几年累积的上亿条真人点评数据，阿里砸钱也砸不来的一样。

这件事其实有个朴素的道理——技术的秘密往往不在技术本身，而在使用技术的手艺里。同样一把刻刀，匠人和学徒刻出来的东西天差地别。AI 也是如此——同样的 Transformer 架构，同样的几千亿参数，OpenAI 和某个三流团队做出来的产品，差的不是材料，是手艺。

这个手艺，就藏在标注体系里。

四、普通用户的真正红利在哪里

讲了这么多产业层面的事，回到一个最实际的问题——作为普通用户，你怎么用好 AI。

答案出乎很多人的意料：

普通人用 AI 的差距，
本质上是当不当自己的标注员。

OpenAI 雇标注员做的事情——写示范回答、排序偏好、纠正错误、提供反馈——这些事情你完全可以自己做，而且只针对你自己的偏好。

给 AI 写一段系统提示，告诉它你的身份、你的专业、你的偏好——这是 SFT。

对 AI 的回答说"这段不好，应该这样写"——这是 RLHF。

给 AI 看几篇你的代表作，让它模仿你的风格——这是 few-shot 示范，比抽象描述风格有效十倍。

把这套方法做到极致的人，已经远远超过 99% 的 AI 用户。他们手里的 AI，和别人手里的 AI，已经不是同一个产品了。

大多数人用 AI 还停留在"问一个问题、看一个答案"的层面，得到的是所有用户的平均答案——一份温吞水。少数人把自己的偏好、领域知识、思维框架、写作风格显性化地教给 AI，得到的是为他一个人定制的智能助手。

这中间的差距，（在我看来）是 AI 时代最大也最被忽视的个人红利。

五、下一波竞争发生在哪里

明白了上述四点，再看 AI 行业的未来，视角会完全不同。

未来三到五年，行业的竞争焦点会从"算力军备竞赛"转向"标注质量军备竞赛"。

表现形式有几个：

第一，领域专家的争夺。前沿数学家、顶级程序员、资深律师、持照医生，他们的时间会被 AI 公司高价收购。Scale AI 旗下 Outlier 平台已经在做这件事，给 ML/AI 博士标注员开出最高每小时 150 美元的费率，专业领域顶尖人才更高。

第二，AI 标 AI 的兴起。普通标注员判断不了 GPT-5 级别模型的输出质量了，未来会出现"用 GPT-5 给 GPT-6 当老师"的局面。Anthropic 的宪法式 AI（RLAIF）就是这条路。这会大幅降低对齐成本，但也会带来新的问题——AI 自己教自己，会不会形成认知闭环。

第三，可验证奖励的强化学习。在数学、代码这类有标准答案的领域，用程序自动判分代替人工，做大规模强化学习。o1、DeepSeek-R1、Claude 的扩展思考能力，都走这条路。这是后训练的新前沿。

第四，个性化对齐的爆发。通用 AI 的对齐做到一定程度就会触顶——再标也是平均人的偏好。真正的增量在让每个用户的 AI 贴合每个用户。Project、Custom GPT、本地记忆、Skills——这些功能的本质都是给个人用户做对齐工具。

这四条路线，没有一条主要靠芯片。它们都发生在算力之上、应用之下的那一层——后训练的层。

六、回到一个简单的判断

谈 AI 谈得最热的人，往往是离 AI 最远的人。

他们谈黄仁勋，谈 H100，谈万亿参数。这些是真的，但只是冰山露出水面的那一角。

水面之下，是几十万人在标数据、是博士级专家在写示范、是审核员在看暴力内容、是工程师在调奖励模型、是产品经理在收集用户反馈——这些事每天都在发生，撑起了你看到的那个会聊天的"智能"。

看懂这一层，你才能看懂这个行业。

看懂这一层，你才能看懂自己手里的 AI——它不是一个神秘的盒子，它是一个被几十万人手把手教出来的、还可以继续被你教下去的工具。

这个时代真正稀缺的，
不是 GPU，
是愿意认真告诉 AI"什么是好回答"的人。