一篇文章读懂 AI:从小白到能看懂技术文章

“想象一下，AI不是一个冰冷的机器，而是一个正在成长的学生...”

首先，我们要知道这个学生从哪里来？

想象有一所大学叫"AI大学"（人工智能），里面有很多专业。

其中最热门的专业叫机器学习（ML）——这个专业的学生不靠死记硬背，而是从数据中自己找规律。

在这个专业里，有一门最难的课叫深度学习（DL）——这门课要用"多层神经网络"思考，专门解决看图、听音、读文章这些复杂任务。

它们三者关系就是：AI ⊃ 机器学习 ⊃ 深度学习

也可以直接理解为：DL构建ML，ML构建AI。

那DL又是什么构建的呢？由NN(神经网络）构建：

CNN卷积神经网络：处理图像、视频，就像眼睛；

GNN循环神经网络：处理文本、语音、序列，就像耳朵和记忆；

RNN图神经网络：处理社交网络，就像关系人脉。

在这个大学里，学生主要学两项核心技能：

NLP（自然语言处理）
"读懂人类语言"的能力。你说的每句话，它都能理解、翻译、甚至自己写文章。
CV（计算机视觉）
"看懂图像视频"的能力。它能认出照片里的人脸、判断路上的红绿灯。

这两项技能，覆盖了AI 90%的应用场景。

但现在的AI学生，每项技能都是单独学的——会聊天的不会看图，会看图的不会写代码。所有它们有一个终极目标：

AGI（通用人工智能）：一个能像人类一样，什么都会、什么都能学的"全能学生"。

这个学生的"大脑"长什么样？

AI学生的大脑叫LLM（大语言模型），它的大脑特别大——有几百亿到几万亿个"脑细胞"。这个大脑让它能读懂你说的任何话，还能写文章、编代码、回答问题。

学生代表：GPT、Claude、Kimi、文心一言。

这个大脑的思考方式很特别，叫Transformer架构，它的核心是"自注意力机制"。

想象你在读一句话："小明给小红买了一束花，她很开心。"没有这个机制的AI可能会困惑："她"是谁？是小明还是小红？

但Transformer能"注意"到：花是送给小红的，所以"她"是小红。它像人一样，能抓住句子里词与词之间的关系。

而这个大脑思考的"最小单位"，是Token。

Token是什么？AI 世界的“计量单位”，是介于“字符”和“单词”之间的一种文本片段。

英文：1个单词 ≈ 1个Token
中文：1个字 ≈ 2-3个Token

为什么重要？ 因为AI都是按Token计费的。你说"你好"，AI脑子里过了2个Token。

这个大脑什么都好，但有个限制：一次只能记住一定量的内容。大脑的"短期记忆容量"即Context（上下文）。

就像你考试时，只能记住眼前这道题的所有条件。

GPT-4：能记住128K Token（约10万字）

Kimi：能记住20万字

超过这个量，AI就会"忘记"前面的内容

Parameters是大脑的"脑细胞数量"，这个大脑有多聪明，取决于有多少个Parameters参数。

参数越多 → 脑子越大 → 越聪明 → 但越贵越慢

GPT-3有1750亿个参数

GPT-4估计有万亿级

类比：参数就像计算机的内存，内存越大，能处理的问题越复杂。

因为计算机只认识数字，不认识文字。所以AI要把每个词"翻译"成一串数字（向量），这叫Word Embedding词嵌入。

使得翻译后的数字能保留词的含义，例如：

"国王"的向量减去"男人"的向量再加上"女人"的向量 ≈ "女王"的向量

AI就是这样理解词语之间的关系的。

这个学生是怎么"学习"的？

1. Pre-training--通识教育阶段

学生入学后，先接受Pre-training预训练--老师把全世界的书、网页、论文、代码都扔给学生，让它自己阅读，学习语言的基本规律。

没有标准答案（无标注数据）
学生自己发现规律（自监督学习）
学会了"怎么说话"，但还不会"怎么干正事"

类比：就像小学到高中的通识教育，什么都学，但不专业。

2. Fine-tuning--职业培训阶段

通识教育完成后，学生要选专业了——这就是Fine-tuning微调。用特定领域的数据再训练：

医疗数据 → 变成医疗AI

法律数据 → 变成法律AI

代码数据 → 变成编程AI

类比：就像大学选专业，专门培养职业技能。

3. SFT --面试培训

学生要工作了，但还需要学会怎么和人对话——这就是SFT（监督微调）。给一堆问答对：

问："今天天气怎么样？"
答："今天是晴天，温度25度..."

学生模仿这些问答，学会怎么说话更得体。

类比：就像面试培训，教你怎么回答HR的问题。

4. RLHF--职场导师调教

学生入职了，但说的话可能不够"得体"——这时候需要RLHF基于人类反馈的强化学习。

人类导师会给学生的回答打分：

"这个回答很好"→ 奖励
"这个回答有问题"→ 惩罚

学生根据反馈调整，变得越来越"懂事"。

类比：就像职场导师，告诉你哪些话能说、哪些不能说。

这就是ChatGPT为什么能这么"懂事"的核心原因。

5. LoRA--打技能补丁

如果每次学新技能都要重新训练整个大脑，成本太高了。

于是有了LoRA低秩适应--只给大脑打一个小补丁，学会新技能。

类比：就像给电脑装一个小插件，不用重装系统就能增加新功能。

6. RAG--考试翻参考书

学生考试时，遇到不会的问题怎么办？翻参考书--这就是RAG检索增强生成。AI回答问题前，先去外部知识库里搜索相关资料，再结合资料回答。

好处：

减少"幻觉"（瞎编）
能回答最新信息（不需要重新训练）

类比：考试时允许开卷，先翻书再答题，准确率更高。

这个学生还能做什么？

这个学生不只是回答问题，还能创造内容--这就是AIGC人工智能生成内容。

写文章、写诗、写代码（文本生成）

画画、设计海报（图像生成）

做音乐、配音（音频生成）

剪视频（视频生成）

学生不只是考试答题，还能创作作品。文生图：你说"画一只猫"，它就画一只猫。图生图：你给它一张草图，它帮你画成精美的图。

那怎么画出想要的图呢？Diffusion Model扩散模型。

原理：

把一张清晰的图慢慢加噪点，变成"雪花图"

学习怎么把"雪花图"一步步还原成清晰的图

反过来用：从"雪花图"一步步还原，就能生成新图

类比：先学"怎么把画擦掉"，再学"怎么从空白画出画"。

除了画，怎么画的更好也是问题，于是有了Prompt（提示词）。

Prompt质量决定输出质量：

差Prompt："写一篇文章" → AI随便写

好Prompt："写一篇关于AI的科普文章，面向小白，500字，风格轻松" → AI精准输出

类比：你给学生布置作业，题目越清晰，作业质量越高。

终于，这个学生有了自己完整的思路和工作流，Agent（智能体）诞生了。

它不只是回答问题，还能：

上网查资料
调用工具（如订票、发邮件）
分步骤完成复杂任务

类比：学生不只是答题，还能帮你跑腿、干实事。

此外，这个学生还可以从别处获得其他人的工具，Skills（技能）--学生的"工具箱"

翻译技能
代码生成技能
图片处理技能

类比：学生书包里的各种工具，需要用什么就拿出来。

学生的问题和局限

Hallucination--学生会"瞎编"

AI最大的问题：Hallucination幻觉——自信地编造错误信息。

例子：

你问："李白写过《静夜思》吗？"
AI可能回答："写过，这是李白公元726年在扬州写的..."

但具体年份可能完全是编的！

类比：学生考试时遇到不会的题，自信地编了一个答案。

怎么解决：用RAG（翻参考书）、事实核查。

Overfitting过拟合--学生"死记硬背"，学生把训练数据背得太熟，换个题就不会了。

类比：学生只会做练习册上的原题，考试换道题就蒙了。

怎么解决：不要只背答案，要学会举一反三（正则化、数据增强）。

Temperature温度--学生的"脑洞开关"，是控制AI输出随机性的参数：

低温（0.1-0.3）：回答稳定、准确，适合写合同、代码
高温（0.8-1.5）：回答有创意、发散，适合写诗、头脑风暴

学生怎么"上岗"工作？

Inference--学生"考试答题"

训练完成后，AI开始工作--这就是Inference推理。

训练 = 学习过程
推理 = 考试答题/实际工作

Quantization--给学生"瘦身"

大模型太大了，跑不动怎么办？Quantization量化——把模型压缩。

原来每个参数用32位存储（FP32）
压缩成16位（FP16）、甚至4位（INT4）
体积减少75%，精度损失不到1%

把一本厚书精简成薄册子，核心内容不变，但更轻便。

Knowledge Distillation--名师带高徒

让大模型（老师）教小模型（学生）--这就是Knowledge Distillation知识蒸馏。大模型把知识传授给小模型，小模型体积小、速度快，但能力接近大模型。

API--学生的"服务窗口"

怎么让别的软件调用AI？用API应用程序编程接口。

类比：学生在服务窗口工作，其他系统通过窗口提交问题，AI回答后返回结果。

MCP--统一的工具协议

AI要调用各种工具（查天气、订票...），每个工具接口都不同，很麻烦。MCP模型上下文协议是一个统一协议，让AI用同一种方式调用所有工具，被誉为“AI 时代的 USB-C 接口”。

终于，经过以上一系列的“教育”，这个学生形成了一套属于自己的基本工作流程，也就是我们现在熟知的通用AI。

希望能够帮到大家，我是赛赛，专注AI小白学习路径，陪你一起成长。

点击下方“阅读原文”，获取【AI专有名词及术语解释】。