AI 的学习秘籍——大模型到底是怎么训练的?
它不是被「编程」出来的。它是被「喂」出来的。
就像养一个孩子——不是给它写一本行为手册,而是让它吃下全人类的知识,然后自己长出了智慧。

一、一万块 GPU 和一个疯狂的想法
2019 年,OpenAI 做了一件看起来很傻的事。
他们收集了互联网上几乎所有公开发表的文字——维基百科、Reddit 帖子、新闻报道、小说、论文、代码、论坛吵架——总共大约 570GB 的纯文本。然后,他们把这一大坨数据「喂」进了一台由一万块 GPU 组成、耗电量顶一个小镇的超算里。
让它开始「猜下一个字」。
就这么一件事。猜下一个字。猜错了改,猜对了也改。反复做了 3000 亿次。
三个月后,这台机器「学会」了写诗、翻译、编程、做数学题、分析财报——虽然没人教过它任何一项技能。它甚至能和你聊天,跟你开你听不懂的冷笑话。
它到底是怎么做到的?
这个问题,比你想象的更奇妙。

二、把全世界变成一道填空题
训练 AI 的第一步,不是给它上课,而是把它能读的所有东西都变成一道填空题。
想象一下。你取一本《哈利·波特》。翻开第一页:
「家住女贞路 4 号的____夫妇总是自豪地说他们是非常……」
你把「德思礼」三个字抹掉,让 AI 猜。它如果猜「德思礼」,你夸它。如果猜「奥特曼」,你告诉它错了,然后悄悄调整它脑子里对应位置的参数。
然后你翻到第二页,再抹掉一个字,再让它猜。再猜,再调。
《哈利·波特》有超过 100 万字。而你要把互联网上所有文字——570 GB,大约 3000 亿个词——全部变成这种填空题。
这就是预训练的真相:不是「教」,是「考」。
大模型不会「学习」一个概念。它做的只有一件事:看到一句话的前半段,猜后半段。它每猜对一个字,内部的参数就微微调整。它每猜错一个字,参数就从另一个方向微微调整。千亿次的猜字和调整之后,它的 1750 亿个参数构成了一个极其精密、极其复杂、连它自己的创造者都无法完全解释的「语言世界模型」。
打个比方,这就好比你让一个三岁的孩子在一间图书馆里住了十年。没人教他认字,没人给他讲课。但他每天的任务是:翻开一本书,读前半页,猜后半页写什么。猜错了继续翻下一页。
十年后,这个孩子能跟你聊哲学、写论文、解微积分。
不是因为他被「教育」了。而是因为他体内的 1750 亿个神经连接,已经被全人类几千年写下的每一个字重塑过了。

三、「挑食」的重要性——不是所有数据都配进训练集
所以,只要把互联网上所有数据都倒进 AI 就行了吗?
不行。因为互联网是一锅粥。
里面有维基百科写了几十遍、编辑反复校对过的知识精华。也有营销号复制粘贴了二十遍的废话、充满错别字的评论区、故意误导人的帖子、还有各种你不想让 AI 学会的东西——仇恨言论、虚假信息、隐私泄露。
如果不加筛选,AI 就会变成一个「见过全人类知识,但也见过全人类垃圾」的东西。
所以训练 AI 之前有一个极其重要的步骤,叫数据清洗。
简单来说就是——挑食。
把重复的删掉。你不需要让 AI 读同一篇营销文五十遍,那只会让它学会复读机模式。把明显有害的过滤掉。把格式乱的整理干净。把低质量的标注掉。还要做一个叫「去重」的操作:用算法扫描 3000 亿个词,把那些「换个说法但意思完全一样」的内容合并或删除。
这个过程要消耗的时间和精力,远远超过外行人的想象。业内人士常说一句话:「模型训练是烧 GPU,数据清洗是烧人。」
打一个比方:你想用全世界所有的菜做一锅高汤。但食材里有新鲜的牛排,也有发霉的面包、过期三年的罐头、和厨房地板上的垃圾。你要先把垃圾挑出来,把发霉的切掉,把重复的食材合并——这锅汤才能喝。
好的数据造就好的 AI。差的数据也能训练出 AI——但训练出来的是个偏执狂、复读机,或者两者皆有。

四、从「猜词机器」到「听话助手」——RLHF 的秘密
但光做完预训练还不够。
一个只做过「猜下一个词」训练的原始大模型,像一个在图书馆住了十年但从没跟人说过话的书呆子。你跟他说「你好」,他可能回你一大段莫名其妙的文字——因为在书里,「你好」后面可能跟着任何东西。
所以需要一个关键步骤,让这个书呆子变得「能聊天」:RLHF——基于人类反馈的强化学习。
听起来很吓人。其实很简单——像训练一只狗。
想象你养了一只金毛。你想让它学会坐下。每次它坐下,你给它一块零食。它很快学会了:坐下=零食。
RLHF 的流程几乎一模一样:
第一步:让 AI 对同一个问题输出好几个不同的回答。
第二步:人类标注员给这些回答打分——「这个好,给高分」「这个在胡扯,扣分」「这个有危险,直接枪毙」。
第三步:用这些打分数据训练一个新的「奖励模型」——一个专门负责判断「什么样的回答是好的」的第二层大脑。
第四步:用这个奖励模型自动给 AI 的每个回答打分,让 AI 学会人类喜欢什么。
这个过程要反复几百万次。AI 的每一个回答都被打分,它慢慢学会了:「用户问的时候我应该这样回答」「这种话题最好避开」「说这句话会让人类觉得我很蠢」。
但这也有代价。
有时候约束过紧——你问 AI 一个完全合理的问题,它却因为被训练得「太怕翻车」而拒绝了。有时候约束可以被绕过——这就是「越狱攻击」,用巧妙的话术让 AI 以为自己做的事是合法的。
而且本质上,AI 并不是真的「理解」了人类的价值观。它只是学会了模仿「一个负责任的 AI 应该怎么说话」。就像那只金毛——它知道坐下有零食吃,但它并不理解「坐下」这个词在社会礼仪中的意义。

五、训练不是一次性的——大模型的「进修班」
你以为训练完就结束了?
不。大模型的世界里没有「毕业」。它永远在上课。
微调:在通用大模型的基础上,用特定领域的高质量数据再做一轮轻量训练。比如医疗 AI 要额外啃几百万份病历,法律 AI 要背完整部判例库。微调的成本远低于从头训练——大概是「花几十万装修改造」vs「花几亿盖一栋新楼」。
持续学习:行业里正在探索让大模型持续吸收新知识,而不是每隔几年推翻重建。这非常难——因为新知识可能「覆盖」旧知识,就像你在旧软件上打了一个新补丁,可能导致整个系统崩溃。
知识蒸馏:用一个「大模型老师」教一个「小模型学生」。老师输出答案,学生模仿老师的套路。蒸馏后的小模型能力接近大模型,但体积只有十分之一甚至百分之一,能在手机上跑。
打一个比方:
预训练是 K-12 义务教育——让模型吃下全人类的知识,打下通识基础。RLHF 是大学——学会跟人类文明社会打交道,什么能说什么不能说。微调是研究生——在某个领域专精,从通才变成专家。知识蒸馏是给师弟师妹补课——把你学会的东西打包给他们,让他们不用从头读一遍。
六、烧掉的,不只是电
我们聊了这么多,有一个数字该说了。
训练 GPT-4 级别的大模型,一次花费在 1 亿到 2.5 亿美元之间。
这包括一万块以上 GPU 的采购和运行费用、几个月的机房电费、上百个顶尖工程师和研究人员的工资、以及反复实验失败重来的成本。OpenAI 在训练 GPT-4 之前,曾经烧掉数千万美元做过一次失败的训练——模型训歪了,整个项目废弃。
而电费也不是小数字。据估算,训练一次 GPT-4 的耗电量约为 50 吉瓦时——足够一个 5000 人的小镇用一年。
所以为什么全世界只有极少数公司能做这件事?不是因为技术壁垒有多高——论文都是公开的,方法大家都知道。而是因为门槛是钱,不是知识。 一次训练的沉没成本,足够让 99.9% 的创业公司还没开始就破产。
这就是为什么很多人说大模型是「富人的游戏」。但话说回来——你不需要自己训练一个 GPT-4。你只需要知道怎么用别人训练好的。就像你不需要自己造一辆法拉利才能开车去上班。
七、知道了它怎么学,你就知道了怎么用它
我们走了一圈:从填空题式的预训练,到挑食般的数据清洗,到训狗式的 RLHF,到微调和蒸馏的进修班,再到那个冷冰冰的成本数字。
知道了这些,很多东西就清楚了。
AI 不是全知全能的。 它的知识来自训练数据——如果在训练数据里「3.11 > 3.9」出现了零次,它就真的会觉得 3.11 更大。它不是笨,是没学过。
AI 不是故意骗你的。 它只是在做它被训练做的事——生成看起来像正确答案的文字。至于这个文字是否和事实相符,不在它的默认任务说明书里。
AI 不是不可控的。 RLHF 是人类套在它身上的一根缰绳。虽然缰绳有时太紧有时太松,但至少——人类在拉。
回到开头那个问题:一万块 GPU 和一个疯狂的想法,最终造出来的是一台「猜词机器」。
但它猜得太好了。
好到——它猜出了人类语言里隐藏的所有模式、所有推理、所有知识。好到——它从「下一个词」里,反推出了整个世界的运行规律。
说到底,大模型的训练不是什么魔法。它是一道人类出给自己的填空题。我们花了二十年把全世界写成一道题——然后让一台机器做到极致。
互动:如果让你来训练一个 AI,你最想给它「吃」什么数据?是某位作家的全部作品?是你自己写过的所有笔记?还是整个 GitHub 的代码?来评论区聊聊你的「AI 食谱」👇
本文是「AI 大模型入门」系列第六篇。
夜雨聆风