一篇看懂 AI:20 个核心概念图解

每个人都在用 AI。

但几乎没人真正理解它是如何工作的。

大家随口说着 Transformer、嵌入、RAG、智能体、RLHF……仿佛人人都懂。其实大多数人并不懂。

说实话，AI 没有那么复杂。一旦你看懂背后的思维模型，ChatGPT、Claude、Midjourney、Cursor、编程智能体……它们背后的原理都可以用下面这 20 个概念串起来。

不需要博士学位，不需要晦涩术语。只需要简单解释和视觉图示。建议收藏，你会反复用到。

第一部分：AI 是如何真正工作的

所有东西的基础都建立在这里

1. 神经网络 Neural Networks

神经网络是每个 AI 模型的大脑。

你可以把神经网络理解成一条由多层组成的流水线：数据进入输入层，穿过隐藏层，最后输出一个预测结果。

每一条连接都有一个“权重”，也就是一个很小的分数，决定一个神经元会对下一个神经元产生多大影响。训练的过程，本质上就是不断调整数十亿个权重，直到输出越来越准确。

概念很简单，但规模非常惊人。原文举例说，GPT-4 大约有 1.8 万亿个参数，Claude 3 Opus 有数千亿个参数。它们本质上都来自同一个基本概念：由可调连接组成的分层神经元。

2. 分词 Tokenization

在 AI 读取你的文本之前，它会先把文本拆成叫做 token 的小片段。

这些片段并不总是完整单词。比如 “playing” 可能会被拆成 “play” 和 “ing”；“ChatGPT” 可能会被拆成 “Chat”、“G”、“PT”；而 “dog” 可能保持为一个整体。

为什么不直接使用完整单词？因为语言太混乱了：新词、拼写错误、混合语言一直在出现。如果只用完整单词，词表会大到无法管理。

token 是可以复用的积木。即使模型从没见过某个新词，也可能通过把它拆成熟悉的小片段来理解它。一个粗略规则是：1 个 token 大约等于 0.75 个英文单词，所以 1000 个 token 大约等于 750 个英文单词。

3. 嵌入 Embeddings

文本被拆成 token 后，每个 token 都会变成一个数字表示。这个数字表示就是 embedding，也可以理解成一个代表“意义”的向量。

你可以把 embedding 想象成“给词语用的 Google 地图”。“医生”和“护士”会靠得很近，“医生”和“披萨”会离得很远；“国王 - 男人 + 女人”会接近“女王”。

模型并不像人一样理解词语，但它能理解距离和方向。这就是语义搜索、推荐系统、RAG 系统背后的基础。凡是看起来能“理解意图”的系统，底层几乎都离不开 embeddings。

4. 注意力 Attention

“Apple” 这个词在不同句子里含义完全不同：“I ate an Apple” 里的 Apple 是水果；“I bought Apple stock” 里的 Apple 是公司。只靠 embedding 还不够，attention 可以解决这个问题。

attention 会让句子里的每个词都去观察其他词，然后判断哪些词更重要。比如在 “She bought shares in Apple” 中，“Apple” 会重点关注 “shares” 和 “bought”，于是模型判断它指的是公司，而不是水果。

在 attention 出现之前，模型通常从左到右读取文本，慢而且受限。attention 出现后，模型可以一次性看见整个句子。这个想法打开了现代 AI 的大门。

5. Transformer 架构

Transformer 是几乎所有现代 AI 模型背后的核心架构。它在 2017 年的论文《Attention Is All You Need》中被提出。

它的突破点在于：不再一个词一个词地读取文本，而是用 attention 并行处理整个输入。一个典型流程是：文本变成 token，token 变成 embedding，再经过一层层堆叠的 attention，最后输出结果。

不同层会逐步提炼理解：浅层处理语法和基础结构，中间层处理词与词之间的关系，深层处理复杂推理。结果就是训练更快，输出更好。GPT、Claude、Gemini、Llama、Mistral，本质上都是 Transformer。理解这个架构，你就理解了现代 AI 的主干。

第二部分：LLM 是如何工作的

你和 AI 聊天时，背后实际发生了什么

6. 大语言模型 LLMs

LLM 是在海量文本上训练出来的 Transformer。训练数据可能包括书籍、网站、代码、维基百科、Reddit，以及数万亿 token。

它的训练任务听起来简单到不可思议：预测下一个 token。就是这样。

但当这个任务在数万亿样本上不断重复时，惊人的事情出现了：模型先学会语法，然后学会推理，再学会写代码、翻译语言、解决数学问题。没有人逐条教它这些能力，它们是在大规模“预测下一个 token”的过程中涌现出来的。

所谓“大”，通常意味着数千亿参数，以及数百万美元级别的训练成本。ChatGPT、Claude、Gemini，本质上都是 LLM。

7. 上下文窗口 Context Window

每个 AI 模型都有记忆限制，这个限制叫上下文窗口。它表示模型一次最多能“看见”多少 token，包括你的消息、模型的回复，以及前面的对话历史。

原文举例：早期 GPT 大约 4000 tokens，GPT-4 可到 128000 tokens，Claude 3.5 可到 200000 tokens，Gemini 1.5 Pro 可到 100 万 tokens。一般来说，上下文窗口越大，模型能参考的信息越多，回答也可能越好。

但这里有个坑：模型并不会平等阅读所有内容。它往往更关注上下文的开头和结尾，中间部分容易被忽略。这就是所谓 “Lost in the Middle” 问题。理解它，你就能明白为什么 AI 有时会“忘记”你明明提过的内容。

8. 温度 Temperature

AI 生成文本时，并不是每次都选择最可能的下一个词。它有一个叫 temperature 的旋钮。

temperature = 0 时，模型总是选择最安全、最可预测的词；temperature = 1 时，回答会更有创造性、更有变化；temperature = 2 以上时，输出可能变得狂野、惊喜，甚至有点混乱。

低温适合代码、事实、摘要；高温适合头脑风暴、创意写作、生成多个变化版本。大多数工具会自动设置温度，但理解它之后，你就能解释为什么 AI 有时很无聊，有时又会突然给你惊喜。

9. 幻觉 Hallucination

AI 会非常自信地说错话。它不是故意撒谎，而是它确实无法自己阻止这种情况。

原因在于：LLM 并不是在搜索真相，它是在预测最可能出现的下一个 token。如果一个错误陈述在训练模式中看起来像是“应该接着出现”的内容，模型就会生成它。没有验证，没有查找，只有模式匹配。

所以它可能会引用一篇不存在的研究论文，编造一个从未创建过的 API 函数，或者非常自信地陈述一段假的历史事实。这就是幻觉。解决方式是：不要盲目信任 AI 给出的事实性内容，需要验证。使用 RAG 可以把回答建立在真实数据之上。

10. 提示词工程 Prompt Engineering

你提问的方式会改变一切。同一个模型，同一个问题，只要表达方式不同，结果就可能完全不同。

差的提示词是：“Explain APIs”。它会得到一个模糊、表层的答案。好的提示词是：“解释 REST API 如何处理认证。请给一个带代码的真实例子。假设我是初级开发者。” 它会得到一个具体、有结构、立刻能用的答案。

提示词工程本质上不是玄学，而是清晰沟通。真正有效的方法包括：给上下文、指定角色、明确输出格式、给示例、提出具体要求、把复杂任务拆成步骤。它不是 hack，而是你和模型沟通的主要方式。

第三部分：AI 模型如何改进

原始模型如何变成可用产品

11. 迁移学习 Transfer Learning

从零训练一个模型非常昂贵。它需要巨量数据、巨量计算资源，以及数周甚至更久的训练时间。迁移学习解决了这个问题。

做法是：先拿一个已经在大型通用任务上训练好的模型，再把它适配到某个具体任务上。你不是从零开始，而是在已有能力上继续构建。

可以这样理解：如果你已经会骑自行车，学摩托车会快很多，因为你把已经掌握的平衡、转向等能力迁移过去了。今天几乎所有 AI 产品都这样工作：基础模型先被大规模训练出来，公司再根据自己的使用场景进行微调。这样可以节省数百万美元计算成本和数月训练时间。

12. 微调 Fine-Tuning

迁移学习告诉你“这个思路是什么”，微调告诉你“具体怎么做”。

你拿到一个预训练模型，然后在一个更小、更聚焦的数据集上继续训练它。模型已经会“说语言”，现在你是在教它你的专业领域。

比如：医疗模型可以在临床笔记上微调，法律模型可以在合同文本上微调，代码模型可以在 GitHub 代码库上微调。结果就是模型能更好地回应你的具体使用场景。

成本在于你需要更新数十亿参数，这通常需要多块 GPU 和相当严肃的基础设施。这也是为什么 LoRA 这个概念很重要。

13. RLHF 人类反馈强化学习

微调让模型更专业，RLHF 让模型更像一个有用、安全的助手。

没有 RLHF 时，模型可能能预测出流畅文本，但不一定和人的偏好对齐。有了 RLHF，模型会学习人类真正喜欢什么样的回答。

它的工作流程大致是：给模型一个提示词，模型生成多个回答，人类对这些回答排序，模型学习这些偏好，然后把这个过程重复成千上万次。

最终，模型建立起“好回答”的感觉：清晰、有帮助、诚实、安全。这就是为什么 ChatGPT 和 Claude 感觉像助手，而不是随机文本生成器。没有 RLHF，它们依然会很厉害，但可用性、可信度和可控性都会差很多。

14. LoRA 低秩适配

微调很强大，但也很昂贵。更新数十亿参数需要多块 GPU 和严肃的基础设施。LoRA 解决了这个问题。

LoRA 不会改变整个模型，而是保持原始模型冻结，在上面增加很小的可训练层。这些层只占完整模型大小的一小部分。核心洞察是：大多数微调变化其实很小，你不需要重写整个模型，只需要做一次小而精准的调整。

结果是：在单张消费级 GPU 上进行微调变得可能；你可以保存一个基础模型，然后为不同任务切换不同 LoRA 适配器。也就是说，你能用很少的存储成本拥有多个专业模型。LoRA 是开源 AI 爆发的重要原因之一，它让更多人可以在笔记本上微调强大的模型。

15. 量化 Quantization

模型正在变得越来越大，运行它们需要大量内存和计算资源。量化让模型更小、更便宜、更容易运行。

方法是降低每个权重的精度。一个完整精度的权重可能使用 32 bit，量化到 4 bit 后，体积大约可以缩小 8 倍。神奇的是，质量下降通常比你想象得小。

这就是为什么现在你可以在 MacBook 上跑 LLaMA，在消费级 GPU 上本地跑 Mistral，甚至在手机上运行能力很强的模型。没有量化，大模型会被锁在数据中心里；有了量化，它们就能跑在你的机器上。

第四部分：真实 AI 系统如何搭建

产品背后真正使用的工程结构

16. RAG 检索增强生成

LLM 会产生幻觉，是因为它经常从记忆里回答。RAG 通过让模型先查资料再回答来修复这个问题。

它的工作方式是：用户提出问题，系统在知识库中搜索相关文档，把这些文档作为上下文传给模型，模型再使用真实信息回答，而不是凭空猜测。

你可以把它想象成闭卷考试和开卷考试的区别。不使用 RAG 时，模型靠记忆答题，经常出错；使用 RAG 时，模型会查来源，准确率高很多。

RAG 强大的地方在于：当你的数据变化时，不需要重新训练模型，只要更新文档即可。模型始终能处理最新、准确的信息，同时减少幻觉。几乎所有严肃的 AI 产品都会使用 RAG，比如客服机器人、法律工具、医疗助手、企业内部知识库。

17. 向量数据库 Vector Databases

RAG 需要快速找到正确文档。但问题是，怎样从数百万文档中按“意思”搜索，而不只是按关键词搜索？答案就是向量数据库。

它的工作方式是：每个文档先被转换成 embedding，也就是一串数字向量；这些向量被存进数据库。当用户提问时，问题也会被转换成向量，数据库会寻找与问题向量最接近的文档向量，并返回最语义相似的内容。

这比关键词搜索更强。比如你搜索 “heart disease treatment”，它可以找到关于 “cardiac care protocols” 的文档，即使文档中没有出现完全相同的词。常见工具包括 Pinecone、Qdrant、Weaviate、pgvector。向量数据库让 AI 系统可以按“意义”理解内容，而不只是匹配字符串。

18. AI 智能体 AI Agents

LLM 会回应消息，而 AI agent 会实际做事。区别在于：LLM 是你问，它回答，然后结束；agent 是你给它一个目标，它会计划、行动、检查结果、调整，再重复这个过程。

这个循环可以概括为：思考 → 行动 → 观察 → 重复。

举个例子：编程智能体看到一个 bug issue，会阅读问题，浏览代码库，定位问题，写修复代码，运行测试，看到哪里失败，再调整修复，直到完成。模型是大脑，工具是手。

这些工具可以包括网页搜索、代码执行、文件系统、API、邮件、日历、数据库。智能体把 AI 从聊天机器人变成了可以协作的同事。

19. 思维链 Chain of Thought

有时 AI 答错，并不是因为它笨，而是因为它跳到答案太快了。思维链给模型留下推理空间。

不要直接让它给出最终答案，而是让它一步一步思考。比如不要只问“如果一辆火车以 60 mph 行驶 2.5 小时，它走了多远？”你可以提示它一步一步解决：先识别公式，再代入数字，最后计算。

模型会沿着推理过程前进：第一步识别公式，第二步代入数字，第三步计算。对于数学、逻辑和多步骤问题，这非常有用。

核心洞察是：给模型思考空间，而不是只要求它立刻反应。这就是为什么“think step by step” 或 “reason through this carefully” 这类提示经常有效。

20. 扩散模型 Diffusion Models

前面讲的几乎都和文本有关。扩散模型解释的是 AI 如何生成图像。这个过程很反直觉：模型不是学习如何画画，而是学习如何破坏图像，再学习如何反向恢复。

训练时，从一张真实图片开始，逐步加入噪声，直到它变成纯噪点；然后训练模型反过来，一步步去除噪声。生成时，从完全随机的噪声开始，再在你的文本提示词引导下逐步去噪，最后图像从随机性中浮现出来。

“扩散”这个名字来自物理学，指粒子像墨水在水中扩散一样随机散开。在这里，模型学会的是反向扩散。

扩散模型不仅用于图像，也已经用于视频、音频、3D 内容、药物分子等。它解释了 AI 如何生成任何视觉内容。

最后回顾

AI 如何工作

神经网络：分层模式学习
分词：把文本拆成小片段
嵌入：把意义变成数字
注意力：上下文改变含义
Transformer：现代 AI 的底层架构

LLM 如何工作

LLM：大规模下一个 token 预测

上下文窗口：记忆限制，以及中间遗忘问题
温度：控制创造性
幻觉：自信，但可能错误
提示词工程：你和模型沟通的方式

模型如何改进

迁移学习：基于已有能力构建
微调：让模型变专业
RLHF：把模型教得更有帮助
LoRA：低成本微调
量化：让大模型跑在小机器上

真实系统如何搭建

RAG：先检索，再回答
向量数据库：按语义搜索
AI 智能体：从回答问题到执行任务
思维链：给模型推理空间
扩散模型：从噪声生成图像

你现在已经理解 AI 实际上是如何工作的。大多数每天使用 AI 的人并不理解这些。这个认知差，就是你的优势。