AI 进化简史:为什么人类参与的越少,AI 反而越强?

💡

核心洞察：AI 七十年的发展不是"越来越聪明"的线性故事，而是一次次对"智能到底是什么"的重新回答。每一次范式切换，本质上都是人类在承认——上一代对智能的定义，太窄了。

前言：每一代 AI 的尽头，都是人类想象力的边界

回望这七十年，AI 的故事常被讲成"算力越来越强、模型越来越大"的技术叙事。但这只是表层。真正值得追问的是：为什么每一次看起来已经走通的路，最后都走不通？

符号 AI 把规则写到了极致，发现世界写不完规则；机器学习把标注做到了极致，发现标注永远不够；深度学习把网络堆到了极致，发现一个模型只能做一件事。每一代 AI 撞上的那堵墙，都不是技术墙——是人类对"智能"的预设太窄。

💡

这篇文章不是按年份罗列里程碑的编年史。它试图回答一个问题：为什么人类越不教，AI 反而越强？答案藏在五代 AI 的更替逻辑里。

回头看这 70 年，有一个规律贯穿始终：

符号 AI：人写规则 → 机器执行机器学习：人标特征 → 机器找规律深度学习：人设计架构 → 机器学习表示预训练：  人准备数据 → 机器学习语言LLM：     人写 prompt → 机器自己涌现能力

每一步都在把人往外踢。你对机器的"教导"越来越少，机器自己"悟"出来的东西越来越多。被踢出去的那些东西，就是每一代 AI 撞上的天花板。

下面按五代逐层展开。

第一代：符号 AI（1950s～1980s）

核心思想：智能 = 规则

如果能把世界上所有规律都写成 if-else，机器就该跟人一样聪明。

里程碑

1950：图灵发表《Computing Machinery and Intelligence》，问出"机器能思考吗？"
1956：达特茅斯会议，AI 学科正式诞生。参会者名单看一眼就知道这行当有多硬——麦卡锡、明斯基、香农、西蒙，个个都是跨时代的名字
1960s～70s：专家系统走向实用——MYCIN 诊断血液疾病，XCON 配置计算机硬件。把专家的知识编码成几百条规则，机器照着执行

❓

符号 AI 的真实世界足迹：

虽然符号 AI 作为主流路线已经消亡，但它的遗产无处不在——今天你手机里的语音助手用规则引擎做意图路由，银行的合规系统用决策树做审查，医院的分诊系统用知识图谱做推理。甚至在 LLM 的 prompt engineering 里，"系统提示词"本质上就是新一代的 if-else——只是从硬编码变成了自然语言。符号 AI 没有死，它被吸进了下一代 AI 的骨架里。

怎么死的：常识墙

你说"鸟会飞"→ 鸵鸟呢？企鹅呢？翅膀受伤的鸟呢？掉光了羽毛的鸟呢？

每一个例外都要再写一条新规则。真实世界的特殊情况和模糊边界无穷无尽，规则永远写不完。符号 AI 撞上的不是技术问题，是"世界本身太复杂"这件事。

💡

常识墙的真实案例：

CYC 项目——历史上最雄心勃勃的符号 AI 尝试。Doug Lenat 从 1984 年开始，目标就是把"常识"一条一条编码进机器。团队花了 30 多年，手动输入了超过 2500 万条常识规则——"水是湿的""人不能穿墙""如果 A 是 B 的母亲，B 不是 A 的母亲"……结果？覆盖的常识仍然只是日常生活的冰山一角。一个小孩三岁就知道的事情，CYC 编了三十年还没写完。这就是常识墙的残酷：你永远在追一个无限膨胀的目标。

第二代：机器学习（1980s～2000s）

核心思想：别写规则了，让数据说话

你给我一堆标注好的例子，我自己找规律。

里程碑

1986：Rumelhart、Hinton 等人重新发表了反向传播算法。这不是新东西（1974 年就有人提过），但这次算力够了，能跑起来了。从此多层神经网络可以被有效训练
1990s：SVM、决策树、随机森林——经典 ML 工具箱成型，银行风控、垃圾邮件过滤、推荐系统，影响至今
1998：LeNet（Yann LeCun）在手写数字上超越人类。CNN 第一次证明了自己不是理论玩具

❓

机器学习的日常渗透：

你可能不知道，但你的生活早就被机器学习包围了——Netflix 推荐你看什么电影、Gmail 过滤掉垃圾邮件、信用卡公司实时判断这笔交易是不是盗刷、Spotify 给你生成"每周发现"歌单。这些系统都不需要人写规则，只需要足够多的历史数据。2010 年 Google 用机器学习做 YouTube 视频推荐，比人工规则好了 30%——但这背后的代价是：每一帧视频都要人标注"这是什么场景""画面里有什么物体"。标注一条就够了，标注一亿条就是另一回事。

转折点：机器学习 vs 符号 AI 的根本区别

符号 AI：  人 → 写规则 → 机器照做机器学习： 人 → 标注数据 → 机器学习规律 → 机器自己做判断

过程里人不再负责"定义规则"，而是负责"准备例子"。这是一个质变。

怎么受限制的：标注地狱

需要海量人工标注。100 万张图片每张都标"是猫/不是猫"，成本爆炸。而且同一个模型跨不了任务——图像分类的模型写不了一行代码，文本分类的模型看不出图长什么样。

💡

标注地狱的极端案例：

ImageNet——深度学习最著名的数据集，包含 1400 多万张标注图片、2 万多个类别。为了建这个数据集，斯坦福团队花了两年，动用了亚马逊 Mechanical Turk 上近 5 万名标注工人，累计标注超过 5000 万次。一张图平均要 5 个工人确认才算数。这就是标注地狱的缩影：数据是喂进去了，但每一条标注背后都是真金白银和人力时间。更致命的是，换一个任务就要重新标注——识别猫的标签不能用来做医疗影像诊断，诊断肺结节的模型也看不懂路牌。

第三代：深度学习爆发（2012～2017）

核心思想：越深越好，让模型自己学"怎么描述世界"

GPU 算力让矩阵运算变成可能，神经网络开始往深了堆。

里程碑

2012：AlexNet 在 ImageNet 上碾压所有传统方法，深度学习元年。不是赢一点点，是碾压——错误率从第二名 26% 降到 16%。整个计算机视觉界一夜换技术栈
2014：Seq2Seq + 注意力机制。机器翻译第一次达到能用的水平——"序列到序列"让输入输出都是变长的，注意力机制让解码时知道该"看原文的哪一部分"
2017：Transformer 论文（Attention Is All You Need）。这不是一个改进，是一次范式灭杀

💡

AlexNet 碾压的细节：

2012 年 ImageNet 竞赛，AlexNet 把 Top-5 错误率从 26% 砸到 16%——领先第二名 10 个百分点。在学术界，领先 2-3 个百分点就算重大突破了。更重要的是，AlexNet 用了两块 GTX 580 显卡训练了 6 天，靠的就是 GPU 并行计算。从这之后，谁不用 GPU 谁就出局——整个行业一夜之间换了技术栈。

为什么 Transformer 是转折点

在它之前，文本处理是 LSTM/RNN 的天下。它们的运作方式：

读第 1 个词 → 读第 2 个词 → 读第 3 个词 → …… → 读第 500 个词

问题是：

读一个字才能读下一个字，没法并行
看到第 500 个字时，第 1 个字已经基本忘了
长距离依赖关系（"因为……所以"中间隔着 200 个字）几乎捕捉不到

Transformer 的 Self-Attention 一次性解决了这个问题：

每个词同时跟所有词计算相关性，一眼看全文

代价是 O(n²) 的计算复杂度——这也是前面文章聊过的 KV Cache 显存压力和 Lost-in-the-Middle 效应的根源。但能力的跃升远超代价，此后所有大模型都长在 Transformer 的骨架上。

💡

Transformer 之外，深度学习还留下了什么：

2015 年 ResNet 用 152 层网络拿下 ImageNet 冠军，"残差连接"让网络可以无限加深而不退化——这个设计后来成了 Transformer 里 skip connection 的原型。2016 年 AlphaGo 击败李世石，整个世界第一次意识到"机器可以在人类最引以为傲的领域赢"。同年，GAN（生成对抗网络）开始生成逼真人脸——深度伪造的概念从此诞生。深度学习不只是 Transformer 的前奏，它重新定义了"计算机能做什么"的边界。

第四代：预训练大模型（2018～2020）

核心思想：训一个通用底座，在上面微调各种任务

这一代推翻了一个基本假设：不再给每个任务训练一个独立模型。

而是在海量语料上先训一个"语言底座"，然后在这个底座上，用很少的数据适配下游任务。

里程碑

2018：BERT（Google）——用双向注意力做预训练，在 NLP 的 11 个 Benchmark 上屠榜。"预训练 + 微调"范式彻底确立
2018：GPT-1（OpenAI）——和 BERT 相反，只用单向的"预测下一个词"。当时效果不如 BERT，但方向走对了
2019：GPT-2（15 亿参数）——发现"参数大了，不微调也能做很多任务"，第一次探测到 scaling 的威力。当时争议很大——OpenAI 一度不敢开源完整模型，说"这玩意儿可能被滥用"

💡

Scaling Law 是怎么被发现的：

2020 年 OpenAI 发表了著名的 Scaling Law 论文，揭示了三个变量的幂律关系：参数量翻倍，Loss 按固定比例下降；数据量翻倍，也是；算力翻倍，还是。这意味着你不需要什么灵丹妙药，只需要堆更多的数据、更大的模型、更多的 GPU——性能就会可预测地提升。GPT-2 就是第一个实验证据：15 亿参数，不微调，直接做翻译、摘要、问答，效果已经接近专门训练的小模型。Scaling Law 的发现让整个行业从"怎么设计更好的架构"转向了"怎么堆更多的资源"。

两条路的分岔

BERT 路线 → 双向语言模型，看重"理解"，在 Benchmark 上分最漂亮GPT 路线 → 单向自回归，看重"生成"，简单粗暴但架构上限更高

后来的历史证明：GPT 路线走得更远。 "预测下一个词"这种最自然的目标函数，不需要 BERT 那种精心设计的"挖空、打乱、预测"预训练任务，但架构上跟人类对话就是天然对齐的——对话本来就是一句一句往后说的。

💡

为什么"预测下一个词"能赢？

直觉上，BERT 的双向理解应该更强——毕竟它能看到上下文。但 GPT 路线有一个隐藏优势：它跟人类使用语言的方式天然对齐。人说话是一句一句往后说的，人听也是从左到右、边听边理解的。"预测下一个词"这个目标函数天然匹配了语言使用的物理过程，所以它做对话、写作、推理都更自然。BERT 擅长做选择题（判断句子的正误），GPT 擅长做作文题（从头生成连贯的文本）。前者是考试技巧，后者才是智能的本质。

第五代：LLM 时代（2020～至今）

核心思想：不只是"训练"，而是"涌现"

参数从亿到千亿，模型自己长出了训练数据里没有教过的能力。

里程碑

2020：GPT-3（1750 亿参数）。第一次让世界看见"涌现"——小模型不会的翻译、写代码、做数学，参数大了之后自己就会了。不需要针对性训练。这个词本身也成了 AI 圈最重要的概念之一
2022.11：ChatGPT 发布。GPT-3.5 + RLHF，让模型学会"聊天"。两个月 1 亿用户，人类历史上增速最快产品。对大多数人类来说，这是第一次跟 AI 真正对话，不是搜关键词，不是按按钮，而是像跟人说话一样跟程序说话
2022.12：Constitutional AI 论文——Anthropic 的对齐路线正式亮相。"不让人类打分，让模型按宪法原则自己审查自己"
2023.03：GPT-4 + Claude 发布。多模态推理 + 超长上下文 + 强指令遵循
2023.06：OpenAI Function Calling。模型第一次原生支持工具调用——注意这里说的是"原生"，不是十几行 Python 里的 "Action: shell" 那种肌肤止痒级别的实现。工具调用变成一等公民，Harness 的进化由此起飞
2024～2025：Claude 3.5→4、DeepSeek V3→R1。预训练的"出厂能力"逐渐拉平，行业分化转向"后训练怎么做"。R1 用纯 RL 炸出了推理涌现，Claude 用 Constitution AI 把安全做成精细刻度。后训练成为主战场
2025：Agent 元年。LLM 从"聊天"走向"干活"。Claude Code、Cursor、Devin 让 LLM 开始操作真实工程环境。也是这一年，"Harness"从一个没人讨论的冷门概念变成限制 Agent 能不能进入生产环境的决定性因素

💡

LLM 撞上的三面墙：

幻觉墙——模型自信地编造不存在的事实。2023 年纽约律师用 ChatGPT 写诉状，引用了六个完全虚构的判例，被法官当庭揭穿。这不是bug，是"预测下一个词"机制的固有副产品——模型追求连贯，不追求真实。

对齐墙——模型知道正确答案，但给出的回答不符合人类期望。RLHF 和 Constitutional AI 就是在解决这面墙：不是让模型更聪明，而是让模型更"像人"。

安全墙——越强的模型越能被越多人使用，也就越容易被滥用。从生成钓鱼邮件到编写恶意代码，能力越强，护栏越难修。2025 年 Agent 元年让这个问题更加尖锐：当 AI 不只是回答问题，而是真的能执行操作，安全就不再是一个学术讨论了。

💡

涌现到底"涌现"了什么？

GPT-3 论文里最震撼的发现：小模型做不好的任务，参数到了一定规模后突然就会了——不是"慢慢变好"，而是"突然会了"。比如 Few-shot learning：给模型几个例子，它就能做从未见过的任务。这不需要针对性训练，不需要更新参数，只是参数够多+数据够多。更进一步，研究者发现了"思维链推理"——在回答前让模型先"想一想"，推理能力就跳了一个台阶。这种能力在训练数据里从未出现过，纯粹是规模到了之后的自发产物。

五代对比，一张表

	符号 AI	机器学习	深度学习	预训练	LLM
年代	1950s-80s	1980s-00s	2012-17	2018-20	2020-至今
做法	人写规则	人标特征	人设计网络	大量数据	超大数据+算力
人做什么	写 if-else	准备标注	设计架构	准备数据	写 prompt
机器做什么	按规则执行	从标注找规律	学习表示	学习语言	自己涌现能力
代表产物	MYCIN 专家系统	SVM、随机森林	ResNet、Transformer	BERT、GPT-2	ChatGPT、Claude、DeepSeek
撞上的墙	常识写不完	标注成本爆炸	跨不了任务	无法真正对话	幻觉、对齐、安全

趋势很清楚：人在定义"智能"这件事里占的比重越来越低，数据和算力占的比重越来越高。

一条隐藏线索：三个关键拐点

不只是线性堆数据堆参数，中间有三个思维层面的断裂，没有它们就没有 LLM：

拐点一：从"设计规则"到"让数据说话"（1980s）

之前：人类理解决策过程 → 把过程写成代码 → 机器执行之后：人类准备标注数据   → 机器学习映射 → 机器自己分类

这个拐点让人意识到：很多我们认为"需要逻辑推理"的问题，本质上是对大量历史样本的统计建模。

拐点二：从"为每个任务训模型"到"训一个万能底座"（2018）

之前：分类任务训分类器，翻译任务训翻译器，问答任务训问答器之后：在大语料上训"语言本身"，语言能力覆盖了所有下游任务

这个拐点让人意识到：语言不是"很多个任务的集合"，语言是一个统一的能力。 "理解"是这种能力的涌现属性，不是分功能开发出来的模块。

拐点三：从"训练"到"对齐"（2022）

之前：模型能力 = 训练数据的统计模式之后：模型效果 = 训练数据 + 人类偏好对齐（RLHF/DPO/Constitution AI）

这个拐点让人意识到："知道正确答案"和"知道人类想要什么"是两种不同的目标函数。一个模型数学 100 分但如果回答让人不舒服，它就不是一个"好用"的模型。从这一步开始，训练分成了两件事：学知识（Pretrain），学做人（对齐）。

三个拐点合在一起，定义了我们今天对"智能"这件事的理解方式。

总结：不是"越来越聪明"，而是"越来越不教"

✅

一句话总结：AI 的发展史，就是人类一步步把自己的"先验知识"从模型里拆除的过程。拆得越干净，涌现得越惊艳。

如果只看表面，七十年 AI 史是"算力变大、数据变多、参数变多"的技术升级路线。但这条线掩盖了一个更深的真相：每一次进步，都不是因为我们"教"得更多了，而是因为我们"教"得更少了。