AI 的学习秘籍——大模型到底是怎么训练的?

AI 的学习秘籍——大模型到底是怎么训练的？

它不是被「编程」出来的。它是被「喂」出来的。

就像养一个孩子——不是给它写一本行为手册，而是让它吃下全人类的知识，然后自己长出了智慧。

一、一万块 GPU 和一个疯狂的想法

2019 年，OpenAI 做了一件看起来很傻的事。

他们收集了互联网上几乎所有公开发表的文字——维基百科、Reddit 帖子、新闻报道、小说、论文、代码、论坛吵架——总共大约 570GB 的纯文本。然后，他们把这一大坨数据「喂」进了一台由一万块 GPU 组成、耗电量顶一个小镇的超算里。

让它开始「猜下一个字」。

就这么一件事。猜下一个字。猜错了改，猜对了也改。反复做了 3000 亿次。

三个月后，这台机器「学会」了写诗、翻译、编程、做数学题、分析财报——虽然没人教过它任何一项技能。它甚至能和你聊天，跟你开你听不懂的冷笑话。

它到底是怎么做到的？

这个问题，比你想象的更奇妙。

二、把全世界变成一道填空题

训练 AI 的第一步，不是给它上课，而是把它能读的所有东西都变成一道填空题。

想象一下。你取一本《哈利·波特》。翻开第一页：

「家住女贞路 4 号的____夫妇总是自豪地说他们是非常……」

你把「德思礼」三个字抹掉，让 AI 猜。它如果猜「德思礼」，你夸它。如果猜「奥特曼」，你告诉它错了，然后悄悄调整它脑子里对应位置的参数。

然后你翻到第二页，再抹掉一个字，再让它猜。再猜，再调。

《哈利·波特》有超过 100 万字。而你要把互联网上所有文字——570 GB，大约 3000 亿个词——全部变成这种填空题。

这就是预训练的真相：不是「教」，是「考」。

大模型不会「学习」一个概念。它做的只有一件事：看到一句话的前半段，猜后半段。它每猜对一个字，内部的参数就微微调整。它每猜错一个字，参数就从另一个方向微微调整。千亿次的猜字和调整之后，它的 1750 亿个参数构成了一个极其精密、极其复杂、连它自己的创造者都无法完全解释的「语言世界模型」。

打个比方，这就好比你让一个三岁的孩子在一间图书馆里住了十年。没人教他认字，没人给他讲课。但他每天的任务是：翻开一本书，读前半页，猜后半页写什么。猜错了继续翻下一页。

十年后，这个孩子能跟你聊哲学、写论文、解微积分。

不是因为他被「教育」了。而是因为他体内的 1750 亿个神经连接，已经被全人类几千年写下的每一个字重塑过了。

三、「挑食」的重要性——不是所有数据都配进训练集

所以，只要把互联网上所有数据都倒进 AI 就行了吗？

不行。因为互联网是一锅粥。

里面有维基百科写了几十遍、编辑反复校对过的知识精华。也有营销号复制粘贴了二十遍的废话、充满错别字的评论区、故意误导人的帖子、还有各种你不想让 AI 学会的东西——仇恨言论、虚假信息、隐私泄露。

如果不加筛选，AI 就会变成一个「见过全人类知识，但也见过全人类垃圾」的东西。

所以训练 AI 之前有一个极其重要的步骤，叫数据清洗。

简单来说就是——挑食。

把重复的删掉。你不需要让 AI 读同一篇营销文五十遍，那只会让它学会复读机模式。把明显有害的过滤掉。把格式乱的整理干净。把低质量的标注掉。还要做一个叫「去重」的操作：用算法扫描 3000 亿个词，把那些「换个说法但意思完全一样」的内容合并或删除。

这个过程要消耗的时间和精力，远远超过外行人的想象。业内人士常说一句话：「模型训练是烧 GPU，数据清洗是烧人。」

打一个比方：你想用全世界所有的菜做一锅高汤。但食材里有新鲜的牛排，也有发霉的面包、过期三年的罐头、和厨房地板上的垃圾。你要先把垃圾挑出来，把发霉的切掉，把重复的食材合并——这锅汤才能喝。

好的数据造就好的 AI。差的数据也能训练出 AI——但训练出来的是个偏执狂、复读机，或者两者皆有。

四、从「猜词机器」到「听话助手」——RLHF 的秘密

但光做完预训练还不够。

一个只做过「猜下一个词」训练的原始大模型，像一个在图书馆住了十年但从没跟人说过话的书呆子。你跟他说「你好」，他可能回你一大段莫名其妙的文字——因为在书里，「你好」后面可能跟着任何东西。

所以需要一个关键步骤，让这个书呆子变得「能聊天」：RLHF——基于人类反馈的强化学习。

听起来很吓人。其实很简单——像训练一只狗。

想象你养了一只金毛。你想让它学会坐下。每次它坐下，你给它一块零食。它很快学会了：坐下=零食。

RLHF 的流程几乎一模一样：

第一步：让 AI 对同一个问题输出好几个不同的回答。

第二步：人类标注员给这些回答打分——「这个好，给高分」「这个在胡扯，扣分」「这个有危险，直接枪毙」。

第三步：用这些打分数据训练一个新的「奖励模型」——一个专门负责判断「什么样的回答是好的」的第二层大脑。

第四步：用这个奖励模型自动给 AI 的每个回答打分，让 AI 学会人类喜欢什么。

这个过程要反复几百万次。AI 的每一个回答都被打分，它慢慢学会了：「用户问的时候我应该这样回答」「这种话题最好避开」「说这句话会让人类觉得我很蠢」。

但这也有代价。

有时候约束过紧——你问 AI 一个完全合理的问题，它却因为被训练得「太怕翻车」而拒绝了。有时候约束可以被绕过——这就是「越狱攻击」，用巧妙的话术让 AI 以为自己做的事是合法的。

而且本质上，AI 并不是真的「理解」了人类的价值观。它只是学会了模仿「一个负责任的 AI 应该怎么说话」。就像那只金毛——它知道坐下有零食吃，但它并不理解「坐下」这个词在社会礼仪中的意义。

五、训练不是一次性的——大模型的「进修班」

你以为训练完就结束了？

不。大模型的世界里没有「毕业」。它永远在上课。

微调：在通用大模型的基础上，用特定领域的高质量数据再做一轮轻量训练。比如医疗 AI 要额外啃几百万份病历，法律 AI 要背完整部判例库。微调的成本远低于从头训练——大概是「花几十万装修改造」vs「花几亿盖一栋新楼」。

持续学习：行业里正在探索让大模型持续吸收新知识，而不是每隔几年推翻重建。这非常难——因为新知识可能「覆盖」旧知识，就像你在旧软件上打了一个新补丁，可能导致整个系统崩溃。

知识蒸馏：用一个「大模型老师」教一个「小模型学生」。老师输出答案，学生模仿老师的套路。蒸馏后的小模型能力接近大模型，但体积只有十分之一甚至百分之一，能在手机上跑。

打一个比方：

预训练是 K-12 义务教育——让模型吃下全人类的知识，打下通识基础。RLHF 是大学——学会跟人类文明社会打交道，什么能说什么不能说。微调是研究生——在某个领域专精，从通才变成专家。知识蒸馏是给师弟师妹补课——把你学会的东西打包给他们，让他们不用从头读一遍。

六、烧掉的，不只是电

我们聊了这么多，有一个数字该说了。

训练 GPT-4 级别的大模型，一次花费在 1 亿到 2.5 亿美元之间。

这包括一万块以上 GPU 的采购和运行费用、几个月的机房电费、上百个顶尖工程师和研究人员的工资、以及反复实验失败重来的成本。OpenAI 在训练 GPT-4 之前，曾经烧掉数千万美元做过一次失败的训练——模型训歪了，整个项目废弃。

而电费也不是小数字。据估算，训练一次 GPT-4 的耗电量约为 50 吉瓦时——足够一个 5000 人的小镇用一年。

所以为什么全世界只有极少数公司能做这件事？不是因为技术壁垒有多高——论文都是公开的，方法大家都知道。而是因为门槛是钱，不是知识。 一次训练的沉没成本，足够让 99.9% 的创业公司还没开始就破产。

这就是为什么很多人说大模型是「富人的游戏」。但话说回来——你不需要自己训练一个 GPT-4。你只需要知道怎么用别人训练好的。就像你不需要自己造一辆法拉利才能开车去上班。

七、知道了它怎么学，你就知道了怎么用它

我们走了一圈：从填空题式的预训练，到挑食般的数据清洗，到训狗式的 RLHF，到微调和蒸馏的进修班，再到那个冷冰冰的成本数字。

知道了这些，很多东西就清楚了。

AI 不是全知全能的。 它的知识来自训练数据——如果在训练数据里「3.11 > 3.9」出现了零次，它就真的会觉得 3.11 更大。它不是笨，是没学过。

AI 不是故意骗你的。 它只是在做它被训练做的事——生成看起来像正确答案的文字。至于这个文字是否和事实相符，不在它的默认任务说明书里。

AI 不是不可控的。 RLHF 是人类套在它身上的一根缰绳。虽然缰绳有时太紧有时太松，但至少——人类在拉。

回到开头那个问题：一万块 GPU 和一个疯狂的想法，最终造出来的是一台「猜词机器」。

但它猜得太好了。

好到——它猜出了人类语言里隐藏的所有模式、所有推理、所有知识。好到——它从「下一个词」里，反推出了整个世界的运行规律。

说到底，大模型的训练不是什么魔法。它是一道人类出给自己的填空题。我们花了二十年把全世界写成一道题——然后让一台机器做到极致。

互动
：如果让你来训练一个 AI，你最想给它「吃」什么数据？是某位作家的全部作品？是你自己写过的所有笔记？还是整个 GitHub 的代码？来评论区聊聊你的「AI 食谱」👇

本文是「AI 大模型入门」系列第六篇。