每个人都在用 AI。
但几乎没人真正理解它是如何工作的。
大家随口说着 Transformer、嵌入、RAG、智能体、RLHF……仿佛人人都懂。其实大多数人并不懂。
说实话,AI 没有那么复杂。一旦你看懂背后的思维模型,ChatGPT、Claude、Midjourney、Cursor、编程智能体……它们背后的原理都可以用下面这 20 个概念串起来。
不需要博士学位,不需要晦涩术语。只需要简单解释和视觉图示。建议收藏,你会反复用到。
第一部分:AI 是如何真正工作的
所有东西的基础都建立在这里
1. 神经网络 Neural Networks
神经网络是每个 AI 模型的大脑。
你可以把神经网络理解成一条由多层组成的流水线:数据进入输入层,穿过隐藏层,最后输出一个预测结果。
每一条连接都有一个“权重”,也就是一个很小的分数,决定一个神经元会对下一个神经元产生多大影响。训练的过程,本质上就是不断调整数十亿个权重,直到输出越来越准确。
概念很简单,但规模非常惊人。原文举例说,GPT-4 大约有 1.8 万亿个参数,Claude 3 Opus 有数千亿个参数。它们本质上都来自同一个基本概念:由可调连接组成的分层神经元。
2. 分词 Tokenization

在 AI 读取你的文本之前,它会先把文本拆成叫做 token 的小片段。
这些片段并不总是完整单词。比如 “playing” 可能会被拆成 “play” 和 “ing”;“ChatGPT” 可能会被拆成 “Chat”、“G”、“PT”;而 “dog” 可能保持为一个整体。
为什么不直接使用完整单词?因为语言太混乱了:新词、拼写错误、混合语言一直在出现。如果只用完整单词,词表会大到无法管理。
token 是可以复用的积木。即使模型从没见过某个新词,也可能通过把它拆成熟悉的小片段来理解它。一个粗略规则是:1 个 token 大约等于 0.75 个英文单词,所以 1000 个 token 大约等于 750 个英文单词。
3. 嵌入 Embeddings
文本被拆成 token 后,每个 token 都会变成一个数字表示。这个数字表示就是 embedding,也可以理解成一个代表“意义”的向量。
你可以把 embedding 想象成“给词语用的 Google 地图”。“医生”和“护士”会靠得很近,“医生”和“披萨”会离得很远;“国王 - 男人 + 女人”会接近“女王”。
模型并不像人一样理解词语,但它能理解距离和方向。这就是语义搜索、推荐系统、RAG 系统背后的基础。凡是看起来能“理解意图”的系统,底层几乎都离不开 embeddings。
4. 注意力 Attention
attention 会让句子里的每个词都去观察其他词,然后判断哪些词更重要。比如在 “She bought shares in Apple” 中,“Apple” 会重点关注 “shares” 和 “bought”,于是模型判断它指的是公司,而不是水果。
在 attention 出现之前,模型通常从左到右读取文本,慢而且受限。attention 出现后,模型可以一次性看见整个句子。这个想法打开了现代 AI 的大门。
5. Transformer 架构
Transformer 是几乎所有现代 AI 模型背后的核心架构。它在 2017 年的论文《Attention Is All You Need》中被提出。
它的突破点在于:不再一个词一个词地读取文本,而是用 attention 并行处理整个输入。一个典型流程是:文本变成 token,token 变成 embedding,再经过一层层堆叠的 attention,最后输出结果。
不同层会逐步提炼理解:浅层处理语法和基础结构,中间层处理词与词之间的关系,深层处理复杂推理。结果就是训练更快,输出更好。GPT、Claude、Gemini、Llama、Mistral,本质上都是 Transformer。理解这个架构,你就理解了现代 AI 的主干。
第二部分:LLM 是如何工作的
你和 AI 聊天时,背后实际发生了什么
6. 大语言模型 LLMs
LLM 是在海量文本上训练出来的 Transformer。训练数据可能包括书籍、网站、代码、维基百科、Reddit,以及数万亿 token。
它的训练任务听起来简单到不可思议:预测下一个 token。就是这样。
但当这个任务在数万亿样本上不断重复时,惊人的事情出现了:模型先学会语法,然后学会推理,再学会写代码、翻译语言、解决数学问题。没有人逐条教它这些能力,它们是在大规模“预测下一个 token”的过程中涌现出来的。
所谓“大”,通常意味着数千亿参数,以及数百万美元级别的训练成本。ChatGPT、Claude、Gemini,本质上都是 LLM。
7. 上下文窗口 Context Window
原文举例:早期 GPT 大约 4000 tokens,GPT-4 可到 128000 tokens,Claude 3.5 可到 200000 tokens,Gemini 1.5 Pro 可到 100 万 tokens。一般来说,上下文窗口越大,模型能参考的信息越多,回答也可能越好。
但这里有个坑:模型并不会平等阅读所有内容。它往往更关注上下文的开头和结尾,中间部分容易被忽略。这就是所谓 “Lost in the Middle” 问题。理解它,你就能明白为什么 AI 有时会“忘记”你明明提过的内容。
8. 温度 Temperature
AI 生成文本时,并不是每次都选择最可能的下一个词。它有一个叫 temperature 的旋钮。
temperature = 0 时,模型总是选择最安全、最可预测的词;temperature = 1 时,回答会更有创造性、更有变化;temperature = 2 以上时,输出可能变得狂野、惊喜,甚至有点混乱。
低温适合代码、事实、摘要;高温适合头脑风暴、创意写作、生成多个变化版本。大多数工具会自动设置温度,但理解它之后,你就能解释为什么 AI 有时很无聊,有时又会突然给你惊喜。
9. 幻觉 Hallucination
原因在于:LLM 并不是在搜索真相,它是在预测最可能出现的下一个 token。如果一个错误陈述在训练模式中看起来像是“应该接着出现”的内容,模型就会生成它。没有验证,没有查找,只有模式匹配。
所以它可能会引用一篇不存在的研究论文,编造一个从未创建过的 API 函数,或者非常自信地陈述一段假的历史事实。这就是幻觉。解决方式是:不要盲目信任 AI 给出的事实性内容,需要验证。使用 RAG 可以把回答建立在真实数据之上。
10. 提示词工程 Prompt Engineering
你提问的方式会改变一切。同一个模型,同一个问题,只要表达方式不同,结果就可能完全不同。
差的提示词是:“Explain APIs”。它会得到一个模糊、表层的答案。好的提示词是:“解释 REST API 如何处理认证。请给一个带代码的真实例子。假设我是初级开发者。” 它会得到一个具体、有结构、立刻能用的答案。
提示词工程本质上不是玄学,而是清晰沟通。真正有效的方法包括:给上下文、指定角色、明确输出格式、给示例、提出具体要求、把复杂任务拆成步骤。它不是 hack,而是你和模型沟通的主要方式。
第三部分:AI 模型如何改进
原始模型如何变成可用产品
11. 迁移学习 Transfer Learning
从零训练一个模型非常昂贵。它需要巨量数据、巨量计算资源,以及数周甚至更久的训练时间。迁移学习解决了这个问题。
做法是:先拿一个已经在大型通用任务上训练好的模型,再把它适配到某个具体任务上。你不是从零开始,而是在已有能力上继续构建。
可以这样理解:如果你已经会骑自行车,学摩托车会快很多,因为你把已经掌握的平衡、转向等能力迁移过去了。今天几乎所有 AI 产品都这样工作:基础模型先被大规模训练出来,公司再根据自己的使用场景进行微调。这样可以节省数百万美元计算成本和数月训练时间。
12. 微调 Fine-Tuning
迁移学习告诉你“这个思路是什么”,微调告诉你“具体怎么做”。
你拿到一个预训练模型,然后在一个更小、更聚焦的数据集上继续训练它。模型已经会“说语言”,现在你是在教它你的专业领域。
比如:医疗模型可以在临床笔记上微调,法律模型可以在合同文本上微调,代码模型可以在 GitHub 代码库上微调。结果就是模型能更好地回应你的具体使用场景。
成本在于你需要更新数十亿参数,这通常需要多块 GPU 和相当严肃的基础设施。这也是为什么 LoRA 这个概念很重要。
13. RLHF 人类反馈强化学习
微调让模型更专业,RLHF 让模型更像一个有用、安全的助手。
没有 RLHF 时,模型可能能预测出流畅文本,但不一定和人的偏好对齐。有了 RLHF,模型会学习人类真正喜欢什么样的回答。
它的工作流程大致是:给模型一个提示词,模型生成多个回答,人类对这些回答排序,模型学习这些偏好,然后把这个过程重复成千上万次。
最终,模型建立起“好回答”的感觉:清晰、有帮助、诚实、安全。这就是为什么 ChatGPT 和 Claude 感觉像助手,而不是随机文本生成器。没有 RLHF,它们依然会很厉害,但可用性、可信度和可控性都会差很多。
14. LoRA 低秩适配
微调很强大,但也很昂贵。更新数十亿参数需要多块 GPU 和严肃的基础设施。LoRA 解决了这个问题。
LoRA 不会改变整个模型,而是保持原始模型冻结,在上面增加很小的可训练层。这些层只占完整模型大小的一小部分。核心洞察是:大多数微调变化其实很小,你不需要重写整个模型,只需要做一次小而精准的调整。
结果是:在单张消费级 GPU 上进行微调变得可能;你可以保存一个基础模型,然后为不同任务切换不同 LoRA 适配器。也就是说,你能用很少的存储成本拥有多个专业模型。LoRA 是开源 AI 爆发的重要原因之一,它让更多人可以在笔记本上微调强大的模型。
15. 量化 Quantization
模型正在变得越来越大,运行它们需要大量内存和计算资源。量化让模型更小、更便宜、更容易运行。
方法是降低每个权重的精度。一个完整精度的权重可能使用 32 bit,量化到 4 bit 后,体积大约可以缩小 8 倍。神奇的是,质量下降通常比你想象得小。
这就是为什么现在你可以在 MacBook 上跑 LLaMA,在消费级 GPU 上本地跑 Mistral,甚至在手机上运行能力很强的模型。没有量化,大模型会被锁在数据中心里;有了量化,它们就能跑在你的机器上。
第四部分:真实 AI 系统如何搭建
产品背后真正使用的工程结构
16. RAG 检索增强生成
LLM 会产生幻觉,是因为它经常从记忆里回答。RAG 通过让模型先查资料再回答来修复这个问题。
它的工作方式是:用户提出问题,系统在知识库中搜索相关文档,把这些文档作为上下文传给模型,模型再使用真实信息回答,而不是凭空猜测。
你可以把它想象成闭卷考试和开卷考试的区别。不使用 RAG 时,模型靠记忆答题,经常出错;使用 RAG 时,模型会查来源,准确率高很多。
RAG 强大的地方在于:当你的数据变化时,不需要重新训练模型,只要更新文档即可。模型始终能处理最新、准确的信息,同时减少幻觉。几乎所有严肃的 AI 产品都会使用 RAG,比如客服机器人、法律工具、医疗助手、企业内部知识库。
17. 向量数据库 Vector Databases
RAG 需要快速找到正确文档。但问题是,怎样从数百万文档中按“意思”搜索,而不只是按关键词搜索?答案就是向量数据库。
它的工作方式是:每个文档先被转换成 embedding,也就是一串数字向量;这些向量被存进数据库。当用户提问时,问题也会被转换成向量,数据库会寻找与问题向量最接近的文档向量,并返回最语义相似的内容。
这比关键词搜索更强。比如你搜索 “heart disease treatment”,它可以找到关于 “cardiac care protocols” 的文档,即使文档中没有出现完全相同的词。常见工具包括 Pinecone、Qdrant、Weaviate、pgvector。向量数据库让 AI 系统可以按“意义”理解内容,而不只是匹配字符串。
18. AI 智能体 AI Agents
LLM 会回应消息,而 AI agent 会实际做事。区别在于:LLM 是你问,它回答,然后结束;agent 是你给它一个目标,它会计划、行动、检查结果、调整,再重复这个过程。
这个循环可以概括为:思考 → 行动 → 观察 → 重复。
举个例子:编程智能体看到一个 bug issue,会阅读问题,浏览代码库,定位问题,写修复代码,运行测试,看到哪里失败,再调整修复,直到完成。模型是大脑,工具是手。
这些工具可以包括网页搜索、代码执行、文件系统、API、邮件、日历、数据库。智能体把 AI 从聊天机器人变成了可以协作的同事。
19. 思维链 Chain of Thought
有时 AI 答错,并不是因为它笨,而是因为它跳到答案太快了。思维链给模型留下推理空间。
不要直接让它给出最终答案,而是让它一步一步思考。比如不要只问“如果一辆火车以 60 mph 行驶 2.5 小时,它走了多远?”你可以提示它一步一步解决:先识别公式,再代入数字,最后计算。
模型会沿着推理过程前进:第一步识别公式,第二步代入数字,第三步计算。对于数学、逻辑和多步骤问题,这非常有用。
核心洞察是:给模型思考空间,而不是只要求它立刻反应。这就是为什么“think step by step” 或 “reason through this carefully” 这类提示经常有效。
20. 扩散模型 Diffusion Models
前面讲的几乎都和文本有关。扩散模型解释的是 AI 如何生成图像。这个过程很反直觉:模型不是学习如何画画,而是学习如何破坏图像,再学习如何反向恢复。
训练时,从一张真实图片开始,逐步加入噪声,直到它变成纯噪点;然后训练模型反过来,一步步去除噪声。生成时,从完全随机的噪声开始,再在你的文本提示词引导下逐步去噪,最后图像从随机性中浮现出来。
“扩散”这个名字来自物理学,指粒子像墨水在水中扩散一样随机散开。在这里,模型学会的是反向扩散。
扩散模型不仅用于图像,也已经用于视频、音频、3D 内容、药物分子等。它解释了 AI 如何生成任何视觉内容。
最后回顾
AI 如何工作
神经网络:分层模式学习 分词:把文本拆成小片段 嵌入:把意义变成数字 注意力:上下文改变含义 Transformer:现代 AI 的底层架构
LLM 如何工作
LLM:大规模下一个 token 预测
上下文窗口:记忆限制,以及中间遗忘问题 温度:控制创造性 幻觉:自信,但可能错误 提示词工程:你和模型沟通的方式
模型如何改进
迁移学习:基于已有能力构建 微调:让模型变专业 RLHF:把模型教得更有帮助 LoRA:低成本微调 量化:让大模型跑在小机器上
真实系统如何搭建
RAG:先检索,再回答 向量数据库:按语义搜索 AI 智能体:从回答问题到执行任务 思维链:给模型推理空间 扩散模型:从噪声生成图像
你现在已经理解 AI 实际上是如何工作的。大多数每天使用 AI 的人并不理解这些。这个认知差,就是你的优势。
夜雨聆风

















