“想象一下,AI不是一个冰冷的机器,而是一个正在成长的学生...”
首先,我们要知道这个学生从哪里来?
想象有一所大学叫"AI大学"(人工智能),里面有很多专业。
其中最热门的专业叫机器学习(ML)——这个专业的学生不靠死记硬背,而是从数据中自己找规律。
在这个专业里,有一门最难的课叫深度学习(DL)——这门课要用"多层神经网络"思考,专门解决看图、听音、读文章这些复杂任务。
它们三者关系就是:AI ⊃ 机器学习 ⊃ 深度学习
也可以直接理解为:DL构建ML,ML构建AI。
那DL又是什么构建的呢?由NN(神经网络)构建:
CNN卷积神经网络:处理图像、视频,就像眼睛;
GNN循环神经网络:处理文本、语音、序列,就像耳朵和记忆;
RNN图神经网络:处理社交网络,就像关系人脉。
在这个大学里,学生主要学两项核心技能:
- NLP(自然语言处理)
"读懂人类语言"的能力。你说的每句话,它都能理解、翻译、甚至自己写文章。 - CV(计算机视觉)
"看懂图像视频"的能力。它能认出照片里的人脸、判断路上的红绿灯。
这两项技能,覆盖了AI 90%的应用场景。
但现在的AI学生,每项技能都是单独学的——会聊天的不会看图,会看图的不会写代码。所有它们有一个终极目标:
AGI(通用人工智能):一个能像人类一样,什么都会、什么都能学的"全能学生"。
这个学生的"大脑"长什么样?
AI学生的大脑叫LLM(大语言模型),它的大脑特别大——有几百亿到几万亿个"脑细胞"。这个大脑让它能读懂你说的任何话,还能写文章、编代码、回答问题。
学生代表:GPT、Claude、Kimi、文心一言。
这个大脑的思考方式很特别,叫Transformer架构,它的核心是"自注意力机制"。
想象你在读一句话:"小明给小红买了一束花,她很开心。"没有这个机制的AI可能会困惑:"她"是谁?是小明还是小红?
但Transformer能"注意"到:花是送给小红的,所以"她"是小红。它像人一样,能抓住句子里词与词之间的关系。
而这个大脑思考的"最小单位",是Token。
Token是什么?AI 世界的“计量单位”,是介于“字符”和“单词”之间的一种文本片段。
英文:1个单词 ≈ 1个Token 中文:1个字 ≈ 2-3个Token
为什么重要? 因为AI都是按Token计费的。你说"你好",AI脑子里过了2个Token。
这个大脑什么都好,但有个限制:一次只能记住一定量的内容。大脑的"短期记忆容量"即Context(上下文)。
就像你考试时,只能记住眼前这道题的所有条件。
GPT-4:能记住128K Token(约10万字)
Kimi:能记住20万字
超过这个量,AI就会"忘记"前面的内容
Parameters是大脑的"脑细胞数量",这个大脑有多聪明,取决于有多少个Parameters参数。
参数越多 → 脑子越大 → 越聪明 → 但越贵越慢
GPT-3有1750亿个参数
GPT-4估计有万亿级
类比:参数就像计算机的内存,内存越大,能处理的问题越复杂。
因为计算机只认识数字,不认识文字。所以AI要把每个词"翻译"成一串数字(向量),这叫Word Embedding词嵌入。
使得翻译后的数字能保留词的含义,例如:
"国王"的向量减去"男人"的向量再加上"女人"的向量 ≈ "女王"的向量
AI就是这样理解词语之间的关系的。
这个学生是怎么"学习"的?
1. Pre-training--通识教育阶段
学生入学后,先接受Pre-training预训练--老师把全世界的书、网页、论文、代码都扔给学生,让它自己阅读,学习语言的基本规律。
没有标准答案(无标注数据) 学生自己发现规律(自监督学习) 学会了"怎么说话",但还不会"怎么干正事"
类比:就像小学到高中的通识教育,什么都学,但不专业。
2. Fine-tuning--职业培训阶段
通识教育完成后,学生要选专业了——这就是Fine-tuning微调。用特定领域的数据再训练:
医疗数据 → 变成医疗AI
法律数据 → 变成法律AI
代码数据 → 变成编程AI
3. SFT --面试培训
学生要工作了,但还需要学会怎么和人对话——这就是SFT(监督微调)。给一堆问答对:
问:"今天天气怎么样?" 答:"今天是晴天,温度25度..."
学生模仿这些问答,学会怎么说话更得体。
类比:就像面试培训,教你怎么回答HR的问题。
4. RLHF--职场导师调教
学生入职了,但说的话可能不够"得体"——这时候需要RLHF基于人类反馈的强化学习。
人类导师会给学生的回答打分:
"这个回答很好"→ 奖励 "这个回答有问题"→ 惩罚
学生根据反馈调整,变得越来越"懂事"。
类比:就像职场导师,告诉你哪些话能说、哪些不能说。
这就是ChatGPT为什么能这么"懂事"的核心原因。
5. LoRA--打技能补丁
如果每次学新技能都要重新训练整个大脑,成本太高了。
于是有了LoRA低秩适应--只给大脑打一个小补丁,学会新技能。
类比:就像给电脑装一个小插件,不用重装系统就能增加新功能。
6. RAG--考试翻参考书
学生考试时,遇到不会的问题怎么办?翻参考书--这就是RAG检索增强生成。AI回答问题前,先去外部知识库里搜索相关资料,再结合资料回答。
好处:
减少"幻觉"(瞎编) 能回答最新信息(不需要重新训练)
类比:考试时允许开卷,先翻书再答题,准确率更高。
这个学生还能做什么?
这个学生不只是回答问题,还能创造内容--这就是AIGC人工智能生成内容。
写文章、写诗、写代码(文本生成)
画画、设计海报(图像生成)
做音乐、配音(音频生成)
剪视频(视频生成)
学生不只是考试答题,还能创作作品。文生图:你说"画一只猫",它就画一只猫。图生图:你给它一张草图,它帮你画成精美的图。
那怎么画出想要的图呢?Diffusion Model扩散模型。
原理:
把一张清晰的图慢慢加噪点,变成"雪花图"
学习怎么把"雪花图"一步步还原成清晰的图
反过来用:从"雪花图"一步步还原,就能生成新图
除了画,怎么画的更好也是问题,于是有了Prompt(提示词)。
Prompt质量决定输出质量:
差Prompt:"写一篇文章" → AI随便写
好Prompt:"写一篇关于AI的科普文章,面向小白,500字,风格轻松" → AI精准输出
类比:你给学生布置作业,题目越清晰,作业质量越高。
终于,这个学生有了自己完整的思路和工作流,Agent(智能体)诞生了。
它不只是回答问题,还能:
上网查资料 调用工具(如订票、发邮件) 分步骤完成复杂任务
类比:学生不只是答题,还能帮你跑腿、干实事。
此外,这个学生还可以从别处获得其他人的工具,Skills(技能)--学生的"工具箱"
翻译技能 代码生成技能 图片处理技能
类比:学生书包里的各种工具,需要用什么就拿出来。
学生的问题和局限
Hallucination--学生会"瞎编"
AI最大的问题:Hallucination幻觉——自信地编造错误信息。
例子:
你问:"李白写过《静夜思》吗?" AI可能回答:"写过,这是李白公元726年在扬州写的..."
但具体年份可能完全是编的!
类比:学生考试时遇到不会的题,自信地编了一个答案。
怎么解决:用RAG(翻参考书)、事实核查。
Overfitting过拟合--学生"死记硬背",学生把训练数据背得太熟,换个题就不会了。
类比:学生只会做练习册上的原题,考试换道题就蒙了。
怎么解决:不要只背答案,要学会举一反三(正则化、数据增强)。
Temperature温度--学生的"脑洞开关",是控制AI输出随机性的参数:
低温(0.1-0.3):回答稳定、准确,适合写合同、代码 高温(0.8-1.5):回答有创意、发散,适合写诗、头脑风暴
学生怎么"上岗"工作?
Inference--学生"考试答题"
训练完成后,AI开始工作--这就是Inference推理。
训练 = 学习过程 推理 = 考试答题/实际工作
Quantization--给学生"瘦身"
大模型太大了,跑不动怎么办?Quantization量化——把模型压缩。
原来每个参数用32位存储(FP32) 压缩成16位(FP16)、甚至4位(INT4) 体积减少75%,精度损失不到1%
把一本厚书精简成薄册子,核心内容不变,但更轻便。
Knowledge Distillation--名师带高徒
让大模型(老师)教小模型(学生)--这就是Knowledge Distillation知识蒸馏。大模型把知识传授给小模型,小模型体积小、速度快,但能力接近大模型。
API--学生的"服务窗口"
怎么让别的软件调用AI?用API应用程序编程接口。
类比:学生在服务窗口工作,其他系统通过窗口提交问题,AI回答后返回结果。
MCP--统一的工具协议
AI要调用各种工具(查天气、订票...),每个工具接口都不同,很麻烦。MCP模型上下文协议是一个统一协议,让AI用同一种方式调用所有工具,被誉为“AI 时代的 USB-C 接口”。
终于,经过以上一系列的“教育”,这个学生形成了一套属于自己的基本工作流程,也就是我们现在熟知的通用AI。
希望能够帮到大家,我是赛赛,专注AI小白学习路径,陪你一起成长。
点击下方“阅读原文”,获取【AI专有名词及术语解释】。
夜雨聆风