这两年AI变聪明了
能帮你写邮件、做 PPT、改代码、分析数据、整理思路、能读完一整本书然后回答你的问题。厉害一点的 AI 甚至能通过律师考试。如今基于大语言模型的AI也可以在水行业中发挥作用,辅助管理和科研。——这些在五年前是不可想象的。
但你有没有想过:这些 AI 是怎么一步步变聪明的?今天我们不聊技术细节,只用几个浅显的比喻,带你快速走过这场持续了十年的技术革命。一、给每个词发一张"身份证"
核心技术:Word2Vec(2013)
故事要从 2013 年说起。那时候的 AI 看到"苹果"两个字,并不知道你说的是水果还是手机。Google 的几个研究员想出了一个办法:给每个英语单词发一张"身份证"。也即 300 个数字组成的向量——你可以理解为一个 300 维空间里的坐标点。关键的洞察是:含义相近的词,它们的"肖像"在这个空间里也彼此靠近。"苹果"和"香蕉"靠得很近,因为都是水果;"电脑"和"手机"也靠得很近,因为都是电子产品。更有意思的是,研究员们发现,向量之间可以做加减法:king(国王)− man(男人)+ woman(女人)≈ queen(女王)。一个数学运算,居然能捕捉到"性别"和"皇室"的语义关系。这在当时的 AI 领域,是一颗深水炸弹。这就是 Word2Vec——大语言模型的"字母表"。没有这套给词打坐标的方法,后面所有的一切都不会发生。二、让 AI "边听边聚焦"
核心技术:注意力机制 Attention(2015)、Transformer(2017)
好,现在 AI 能理解每个词的意思了。接下来的问题:怎么让 AI理解一个句子?想象你是一个同声传译员,正在把英文翻译成中文。你不会等发言人讲完一整句才开始翻译——你会在听到关键词时就开始组织中文,同时关注后面可能出现的新信息。"边听边聚焦"。2015 年,研究员们把这种能力引入了 AI:翻译每个词的时候,AI 会动态扫视整个句子,找出和当前翻译最相关的那些词,重点"关注"那里的信息。这就是注意力机制(Attention),它解决了一个长期困扰 AI 的问题:句子太长时,前面的信息到后面就模糊了。2017 年,事情迎来了真正的大爆发。Google 发表了一篇论文,标题就叫:《注意力就是你所需要的一切》(Attention Is All You Need)。这篇论文提出了Transformer 架构——你可以理解为一个全新的"工厂流水线"。之前的方式,就像只有一个工人,必须按顺序一个个处理零件——第 100 个零件必须等前 99 个都处理完才能开始。Transformer 的做法是:雇一群工人,每人同时看到所有零件,并且每个工人都能直接和其他工人"对话",询问任何零件的信息。这就是"自注意力"(Self-Attention)Transformer 是这场革命的"发动机"。今天所有的 GPT、BERT、LLaMA,全都是在它的基础上建造的。
三、大力出奇迹?
核心技术:BERT(2018)、GPT-3(2020)、规模缩放定律(2020)
2017 年之后,大家都在 Transformer 上做实验,分出了两条路:
第一条路是 BERT(Google,2018)。BERT 的训练方式,就像我们小时候做的"完形填空"题。给一段文字,把其中 15% 的词挖掉,让 AI 来猜这些被挖掉的词是什么。通过海量练习,AI 学会了从左右两个方向同时理解上下文——双向理解。BERT 一发布,在 11 个语言类任务上全部拿了冠军,一时风头无两。第二条路是 GPT-3(OpenAI,2020)。GPT-3 的规模达到了 1750 亿个参数——是 BERT 最大版本的 500 倍。但 GPT-3 最惊人的不是规模,而是一种叫"少样本学习"(Few-Shot Learning)的能力:只需要在提问时给出几个示例,AI 就能立刻学会执行新任务——不需要任何额外的训练和调整。比如你想让它做翻译,不需要先喂给它几百万条翻译数据,只需要在问题里写几个示例:“苹果 → Apple,香蕉 → Banana,狗 → Dog,猫 → ___"。AI 就能推断出答案是 "Cat"。这不是"记住了答案",而是真正从示例中理解了一个新任务的规律。更重要的是,研究员们发现了一个数学规律:模型越大,效果越好,而且不是简单的线性增长——大模型比小模型"学得更快",同样的数据量,大模型学到的东西更多。这就是为什么这几年大家拼命做大模型——不是炫富,是数学上确实更划算。四、让 AI 更听话
核心技术:RLHF 人类反馈强化学习(2022)、思维链推理(2022)GPT-3 很强,但有一个大问题:它不太听话。你让它写一封正式的商务邮件,它可能给你写成一首诗;你让它回答技术问题,它可能一本正经地胡说八道。怎么让 AI 的回答更符合人类期望?OpenAI 用了一个叫"人类反馈强化学习"(RLHF)的方法来解决这个问题。类比很简单——想象你是一个游泳教练,你的学员(AI)游得很快,但姿势不对,还经常游到别人的泳道里。你不能直接修改他的肌肉记忆(参数太多,改不动),所以你先训练一个"评分员"来学习什么是好姿势,然后让评分员给学员实时打分,最后用强化学习让学员向高分方向不断优化。经过这套"游泳教练"训练之后,AI 学会了:回答要有帮助、要说实话、要避免有害内容。这就是后来 ChatGPT 的技术基础。与此同时,另一项研究带来了意外的惊喜。研究员们发现,如果让 AI 在回答之前先"打草稿"、一步一步地推理(而不是直接给答案),数学题的正确率会从18% 飙升到 58%。没有改模型,没有加训练数据,只是换了一种提问方式。这说明 AI 不只是在"背诵答案"——只要你给它足够的空间去展示推理过程,它真的会"思考"。五、AI 学会用工具
核心技术:RAG 检索增强生成(2020)、ReAct(2022)、Toolformer(2023)
从 2022 年开始,研究员们有了一个更大的野心:让 AI 自主使用工具。第一步:给 AI 一本"参考书"。传统 AI 靠"记忆"回答问题,但记忆可能有错、会过时。检索增强生成(RAG)的做法是:先用你的问题去知识库里检索相关内容,然后把检索到的段落和你的问题一起喂给 AI,让它"参考着回答"。这就像从"闭卷考试"变成了"开卷考试"——答案有原文佐证,AI 胡说八道的概率大大降低。
第二步:让 AI "边想边做"。人类解决问题是"边想边做"的: 遇到问题 → 思考原因 → 查资料 → 调整方案 → 继续思考…… ReAct让 AI 也学会了这套模式:交替进行"推理"(Thought)和"行动"(Action)。AI 会先输出"我想先查一下今年的经济数据",然后执行搜索,看到结果后再继续推理——这比纯粹靠"记忆"回答,要准确得多。第三步:让 AI 自己学会用工具。更进一步,Toolformer证明 AI 可以在训练过程中自动学会在合适的时机调用计算器、查字典、调用 API——不需要人工标注哪里该用什么工具,AI 自己会判断。这三步加在一起,AI 从一个"只会背书的学生",变成了一个"能查资料、能用工具、边做边想的助手"。六、AI 自己协作,AI 跑上手机
核心技术:多 Agent 协作(2023)、BitNet(2024)
方向一:多个 AI 互相协作。一个公司不会让一个人干所有的活——有产品经理、工程师、设计师、测试。AutoGen把这个模式搬到了 AI 世界:你可以定义多个 AI Agent,每个有不同角色和技能。负责写代码的 Agent、负责审查代码的 Agent、负责查资料的 Agent,在一个"群聊"里协作完成复杂任务。人类可以随时介入对话——这是真正的"人机协作框架"。研究员们甚至把 25 个 AI Agent 放进一个模拟小镇,每个 Agent 都有"记忆流"(记录经历)、"反思"(总结经验)、"计划"(安排日程)三种机制。结果这些 Agent 自发组织了情人节派对、互相传八卦——完全没有人编程指定它们这么做。方向二:大模型跑在手机上。现在的大模型动辄要占用几十 GB 的内存,必须部署在高性能服务器上,用一次要花好几毛钱。BitNet把每个参数压缩到只有 -1、0、+1 三个值——相当于把一部 4K 电影压缩到表情包大小。推理能耗减少了 90% 以上,性能几乎没有损失。这意味着大模型可能很快就能在你的手机上运行——不需要联网,不需要昂贵的服务器费用,AI 助手将真正成为你口袋里的随身物品。结语
至此,我们走过了 2013—2024 年大语言模型的十年进化:
- **Word2Vec(2013)**:给每个词打上"语义坐标",king − man + woman ≈ queen
- **Transformer(2017)**:并行处理的发动机,今天一切的基础
- **BERT + GPT-3(2018—2020)**:完形填空训练法,以及"模型越大越聪明"的规律
- **RLHF + 思维链(2022)**:让 AI 更听话,还学会了一步步推理
- **RAG + ReAct + Toolformer(2022—2023)**:AI 学会查资料、边想边做、自主用工具
- **多 Agent + BitNet(2023—2024)**:AI 开始互相协作,还要跑上你的手机
这条时间线,每一步都是建立在上一步的基础上。没有 Word2Vec 就没有 Transformer,没有 Transformer 就没有 GPT-3,没有 GPT-3 就没有 ChatGPT和后来Agentic AI。Agent 时代才刚刚拉开序幕。当 AI 能够自主使用工具、调用 API、和其他 AI 协作完成任务,我们的工作方式、生活方式会怎么变——这个问题,正在被现实回答。
参考文献
| 2013 | Word2Vec (Mikolov et al.) | 词向量,语义空间 |
| 2015 | Attention Mechanism (Bahdanau et al.) | 注意力机制 |
| 2017 | Transformer (Vaswani et al.) | 自注意力,并行架构 |
| 2018 | BERT (Devlin et al.) | 双向预训练,完形填空 |
| 2020 | GPT-3 (Brown et al.) | 少样本学习,大规模语言模型 |
| 2020 | Scaling Laws (Kaplan et al.) | 规模与性能的数学关系 |
| 2020 | RAG (Lewis et al.) | 检索增强生成 |
| 2022 | InstructGPT / RLHF (Ouyang et al.) | 人类反馈强化学习 |
| 2022 | Chain-of-Thought (Wei et al.) | 思维链推理 |
| 2022 | ReAct (Yao et al.) | 推理与行动交替 |
| 2023 | Toolformer (Schick et al.) | 自主学习工具使用 |
| 2023 | AutoGen (Wu et al.) | 多 Agent 协作框架 |
| 2024 | BitNet b1.58 (Ma et al.) | 超低比特量化,端侧部署 |