大语言模型十年进化史:从猜词到AI助手

这两年AI变聪明了

能帮你写邮件、做 PPT、改代码、分析数据、整理思路、能读完一整本书然后回答你的问题。厉害一点的 AI 甚至能通过律师考试。如今基于大语言模型的AI也可以在水行业中发挥作用，辅助管理和科研。——这些在五年前是不可想象的。

但你有没有想过：这些 AI 是怎么一步步变聪明的？今天我们不聊技术细节，只用几个浅显的比喻，带你快速走过这场持续了十年的技术革命。

一、给每个词发一张"身份证"

核心技术：Word2Vec（2013）

故事要从 2013 年说起。那时候的 AI 看到"苹果"两个字，并不知道你说的是水果还是手机。Google 的几个研究员想出了一个办法：给每个英语单词发一张"身份证"。也即 300 个数字组成的向量——你可以理解为一个 300 维空间里的坐标点。关键的洞察是：含义相近的词，它们的"肖像"在这个空间里也彼此靠近。

"苹果"和"香蕉"靠得很近，因为都是水果；"电脑"和"手机"也靠得很近，因为都是电子产品。更有意思的是，研究员们发现，向量之间可以做加减法：king（国王）− man（男人）+ woman（女人）≈ queen（女王）。一个数学运算，居然能捕捉到"性别"和"皇室"的语义关系。这在当时的 AI 领域，是一颗深水炸弹。

这就是 Word2Vec——大语言模型的"字母表"。没有这套给词打坐标的方法，后面所有的一切都不会发生。

二、让 AI "边听边聚焦"

核心技术：注意力机制 Attention（2015）、Transformer（2017）

好，现在 AI 能理解每个词的意思了。接下来的问题：怎么让 AI理解一个句子？想象你是一个同声传译员，正在把英文翻译成中文。你不会等发言人讲完一整句才开始翻译——你会在听到关键词时就开始组织中文，同时关注后面可能出现的新信息。"边听边聚焦"。

2015 年，研究员们把这种能力引入了 AI：翻译每个词的时候，AI 会动态扫视整个句子，找出和当前翻译最相关的那些词，重点"关注"那里的信息。这就是注意力机制（Attention），它解决了一个长期困扰 AI 的问题：句子太长时，前面的信息到后面就模糊了。

2017 年，事情迎来了真正的大爆发。Google 发表了一篇论文，标题就叫：《注意力就是你所需要的一切》（Attention Is All You Need）。这篇论文提出了Transformer 架构——你可以理解为一个全新的"工厂流水线"。之前的方式，就像只有一个工人，必须按顺序一个个处理零件——第 100 个零件必须等前 99 个都处理完才能开始。Transformer 的做法是：雇一群工人，每人同时看到所有零件，并且每个工人都能直接和其他工人"对话"，询问任何零件的信息。这就是"自注意力"（Self-Attention）

Transformer 是这场革命的"发动机"。今天所有的 GPT、BERT、LLaMA，全都是在它的基础上建造的。

三、大力出奇迹？

核心技术：BERT（2018）、GPT-3（2020）、规模缩放定律（2020）

2017 年之后，大家都在 Transformer 上做实验，分出了两条路：

第一条路是 BERT（Google，2018）。BERT 的训练方式，就像我们小时候做的"完形填空"题。给一段文字，把其中 15% 的词挖掉，让 AI 来猜这些被挖掉的词是什么。通过海量练习，AI 学会了从左右两个方向同时理解上下文——双向理解。BERT 一发布，在 11 个语言类任务上全部拿了冠军，一时风头无两。

第二条路是 GPT-3（OpenAI，2020）。GPT-3 的规模达到了 1750 亿个参数——是 BERT 最大版本的 500 倍。但 GPT-3 最惊人的不是规模，而是一种叫"少样本学习"（Few-Shot Learning）的能力：只需要在提问时给出几个示例，AI 就能立刻学会执行新任务——不需要任何额外的训练和调整。比如你想让它做翻译，不需要先喂给它几百万条翻译数据，只需要在问题里写几个示例：“苹果 → Apple，香蕉 → Banana，狗 → Dog，猫 → ___"。AI 就能推断出答案是 "Cat"。这不是"记住了答案"，而是真正从示例中理解了一个新任务的规律。

更重要的是，研究员们发现了一个数学规律：模型越大，效果越好，而且不是简单的线性增长——大模型比小模型"学得更快"，同样的数据量，大模型学到的东西更多。这就是为什么这几年大家拼命做大模型——不是炫富，是数学上确实更划算。

四、让 AI 更听话

核心技术：RLHF 人类反馈强化学习（2022）、思维链推理（2022）

GPT-3 很强，但有一个大问题：它不太听话。你让它写一封正式的商务邮件，它可能给你写成一首诗；你让它回答技术问题，它可能一本正经地胡说八道。怎么让 AI 的回答更符合人类期望？OpenAI 用了一个叫"人类反馈强化学习"（RLHF）的方法来解决这个问题。

类比很简单——想象你是一个游泳教练，你的学员（AI）游得很快，但姿势不对，还经常游到别人的泳道里。你不能直接修改他的肌肉记忆（参数太多，改不动），所以你先训练一个"评分员"来学习什么是好姿势，然后让评分员给学员实时打分，最后用强化学习让学员向高分方向不断优化。经过这套"游泳教练"训练之后，AI 学会了：回答要有帮助、要说实话、要避免有害内容。这就是后来 ChatGPT 的技术基础。

与此同时，另一项研究带来了意外的惊喜。研究员们发现，如果让 AI 在回答之前先"打草稿"、一步一步地推理（而不是直接给答案），数学题的正确率会从18% 飙升到 58%。没有改模型，没有加训练数据，只是换了一种提问方式。这说明 AI 不只是在"背诵答案"——只要你给它足够的空间去展示推理过程，它真的会"思考"。

五、AI 学会用工具

核心技术：RAG 检索增强生成（2020）、ReAct（2022）、Toolformer（2023）

从 2022 年开始，研究员们有了一个更大的野心：让 AI 自主使用工具。

第一步：给 AI 一本"参考书"。传统 AI 靠"记忆"回答问题，但记忆可能有错、会过时。检索增强生成（RAG）的做法是：先用你的问题去知识库里检索相关内容，然后把检索到的段落和你的问题一起喂给 AI，让它"参考着回答"。这就像从"闭卷考试"变成了"开卷考试"——答案有原文佐证，AI 胡说八道的概率大大降低。

第二步：让 AI "边想边做"。人类解决问题是"边想边做"的：遇到问题 → 思考原因 → 查资料 → 调整方案 → 继续思考…… ReAct让 AI 也学会了这套模式：交替进行"推理"（Thought）和"行动"（Action）。AI 会先输出"我想先查一下今年的经济数据"，然后执行搜索，看到结果后再继续推理——这比纯粹靠"记忆"回答，要准确得多。

第三步：让 AI 自己学会用工具。更进一步，Toolformer证明 AI 可以在训练过程中自动学会在合适的时机调用计算器、查字典、调用 API——不需要人工标注哪里该用什么工具，AI 自己会判断。这三步加在一起，AI 从一个"只会背书的学生"，变成了一个"能查资料、能用工具、边做边想的助手"。

六、AI 自己协作，AI 跑上手机

核心技术：多 Agent 协作（2023）、BitNet（2024）

2023 年之后，又出现了两个令人兴奋的方向：

方向一：多个 AI 互相协作。一个公司不会让一个人干所有的活——有产品经理、工程师、设计师、测试。AutoGen把这个模式搬到了 AI 世界：你可以定义多个 AI Agent，每个有不同角色和技能。负责写代码的 Agent、负责审查代码的 Agent、负责查资料的 Agent，在一个"群聊"里协作完成复杂任务。人类可以随时介入对话——这是真正的"人机协作框架"。研究员们甚至把 25 个 AI Agent 放进一个模拟小镇，每个 Agent 都有"记忆流"（记录经历）、"反思"（总结经验）、"计划"（安排日程）三种机制。结果这些 Agent 自发组织了情人节派对、互相传八卦——完全没有人编程指定它们这么做。

方向二：大模型跑在手机上。现在的大模型动辄要占用几十 GB 的内存，必须部署在高性能服务器上，用一次要花好几毛钱。BitNet把每个参数压缩到只有 -1、0、+1 三个值——相当于把一部 4K 电影压缩到表情包大小。推理能耗减少了 90% 以上，性能几乎没有损失。这意味着大模型可能很快就能在你的手机上运行——不需要联网，不需要昂贵的服务器费用，AI 助手将真正成为你口袋里的随身物品。

结语

至此，我们走过了 2013—2024 年大语言模型的十年进化：

**Word2Vec（2013）**：给每个词打上"语义坐标"，king − man + woman ≈ queen
**Transformer（2017）**：并行处理的发动机，今天一切的基础
**BERT + GPT-3（2018—2020）**：完形填空训练法，以及"模型越大越聪明"的规律
**RLHF + 思维链（2022）**：让 AI 更听话，还学会了一步步推理
**RAG + ReAct + Toolformer（2022—2023）**：AI 学会查资料、边想边做、自主用工具
**多 Agent + BitNet（2023—2024）**：AI 开始互相协作，还要跑上你的手机

这条时间线，每一步都是建立在上一步的基础上。没有 Word2Vec 就没有 Transformer，没有 Transformer 就没有 GPT-3，没有 GPT-3 就没有 ChatGPT和后来Agentic AI。

Agent 时代才刚刚拉开序幕。当 AI 能够自主使用工具、调用 API、和其他 AI 协作完成任务，我们的工作方式、生活方式会怎么变——这个问题，正在被现实回答。

参考文献

| 2013 | Word2Vec (Mikolov et al.) | 词向量，语义空间 |

| 2015 | Attention Mechanism (Bahdanau et al.) | 注意力机制 |

| 2017 | Transformer (Vaswani et al.) | 自注意力，并行架构 |

| 2018 | BERT (Devlin et al.) | 双向预训练，完形填空 |

| 2020 | GPT-3 (Brown et al.) | 少样本学习，大规模语言模型 |

| 2020 | Scaling Laws (Kaplan et al.) | 规模与性能的数学关系 |

| 2020 | RAG (Lewis et al.) | 检索增强生成 |

| 2022 | InstructGPT / RLHF (Ouyang et al.) | 人类反馈强化学习 |

| 2022 | Chain-of-Thought (Wei et al.) | 思维链推理 |

| 2022 | ReAct (Yao et al.) | 推理与行动交替 |

| 2023 | Toolformer (Schick et al.) | 自主学习工具使用 |

| 2023 | AutoGen (Wu et al.) | 多 Agent 协作框架 |

| 2024 | BitNet b1.58 (Ma et al.) | 超低比特量化，端侧部署 |