💡核心洞察:AI 七十年的发展不是"越来越聪明"的线性故事,而是一次次对"智能到底是什么"的重新回答。每一次范式切换,本质上都是人类在承认——上一代对智能的定义,太窄了。回望这七十年,AI 的故事常被讲成"算力越来越强、模型越来越大"的技术叙事。但这只是表层。真正值得追问的是:为什么每一次看起来已经走通的路,最后都走不通?符号 AI 把规则写到了极致,发现世界写不完规则;机器学习把标注做到了极致,发现标注永远不够;深度学习把网络堆到了极致,发现一个模型只能做一件事。每一代 AI 撞上的那堵墙,都不是技术墙——是人类对"智能"的预设太窄。💡这篇文章不是按年份罗列里程碑的编年史。它试图回答一个问题:为什么人类越不教,AI 反而越强?答案藏在五代 AI 的更替逻辑里。符号 AI:人写规则 → 机器执行机器学习:人标特征 → 机器找规律深度学习:人设计架构 → 机器学习表示预训练: 人准备数据 → 机器学习语言LLM: 人写 prompt → 机器自己涌现能力
每一步都在把人往外踢。你对机器的"教导"越来越少,机器自己"悟"出来的东西越来越多。被踢出去的那些东西,就是每一代 AI 撞上的天花板。
如果能把世界上所有规律都写成 if-else,机器就该跟人一样聪明。- 1950:图灵发表《Computing Machinery and Intelligence》,问出"机器能思考吗?"
- 1956:达特茅斯会议,AI 学科正式诞生。参会者名单看一眼就知道这行当有多硬——麦卡锡、明斯基、香农、西蒙,个个都是跨时代的名字
- 1960s~70s:专家系统走向实用——MYCIN 诊断血液疾病,XCON 配置计算机硬件。把专家的知识编码成几百条规则,机器照着执行
❓虽然符号 AI 作为主流路线已经消亡,但它的遗产无处不在——今天你手机里的语音助手用规则引擎做意图路由,银行的合规系统用决策树做审查,医院的分诊系统用知识图谱做推理。甚至在 LLM 的 prompt engineering 里,"系统提示词"本质上就是新一代的 if-else——只是从硬编码变成了自然语言。符号 AI 没有死,它被吸进了下一代 AI 的骨架里。你说"鸟会飞"→ 鸵鸟呢?企鹅呢?翅膀受伤的鸟呢?掉光了羽毛的鸟呢?每一个例外都要再写一条新规则。真实世界的特殊情况和模糊边界无穷无尽,规则永远写不完。符号 AI 撞上的不是技术问题,是"世界本身太复杂"这件事。💡CYC 项目——历史上最雄心勃勃的符号 AI 尝试。Doug Lenat 从 1984 年开始,目标就是把"常识"一条一条编码进机器。团队花了 30 多年,手动输入了超过 2500 万条常识规则——"水是湿的""人不能穿墙""如果 A 是 B 的母亲,B 不是 A 的母亲"……结果?覆盖的常识仍然只是日常生活的冰山一角。一个小孩三岁就知道的事情,CYC 编了三十年还没写完。这就是常识墙的残酷:你永远在追一个无限膨胀的目标。
- 1986:Rumelhart、Hinton 等人重新发表了反向传播算法。这不是新东西(1974 年就有人提过),但这次算力够了,能跑起来了。从此多层神经网络可以被有效训练
- 1990s:SVM、决策树、随机森林——经典 ML 工具箱成型,银行风控、垃圾邮件过滤、推荐系统,影响至今
- 1998:LeNet(Yann LeCun)在手写数字上超越人类。CNN 第一次证明了自己不是理论玩具
❓你可能不知道,但你的生活早就被机器学习包围了——Netflix 推荐你看什么电影、Gmail 过滤掉垃圾邮件、信用卡公司实时判断这笔交易是不是盗刷、Spotify 给你生成"每周发现"歌单。这些系统都不需要人写规则,只需要足够多的历史数据。2010 年 Google 用机器学习做 YouTube 视频推荐,比人工规则好了 30%——但这背后的代价是:每一帧视频都要人标注"这是什么场景""画面里有什么物体"。标注一条就够了,标注一亿条就是另一回事。符号 AI: 人 → 写规则 → 机器照做机器学习: 人 → 标注数据 → 机器学习规律 → 机器自己做判断
过程里人不再负责"定义规则",而是负责"准备例子"。这是一个质变。需要海量人工标注。100 万张图片每张都标"是猫/不是猫",成本爆炸。而且同一个模型跨不了任务——图像分类的模型写不了一行代码,文本分类的模型看不出图长什么样。💡ImageNet——深度学习最著名的数据集,包含 1400 多万张标注图片、2 万多个类别。为了建这个数据集,斯坦福团队花了两年,动用了亚马逊 Mechanical Turk 上近 5 万名标注工人,累计标注超过 5000 万次。一张图平均要 5 个工人确认才算数。这就是标注地狱的缩影:数据是喂进去了,但每一条标注背后都是真金白银和人力时间。更致命的是,换一个任务就要重新标注——识别猫的标签不能用来做医疗影像诊断,诊断肺结节的模型也看不懂路牌。
GPU 算力让矩阵运算变成可能,神经网络开始往深了堆。- 2012:AlexNet 在 ImageNet 上碾压所有传统方法,深度学习元年。不是赢一点点,是碾压——错误率从第二名 26% 降到 16%。整个计算机视觉界一夜换技术栈
- 2014:Seq2Seq + 注意力机制。机器翻译第一次达到能用的水平——"序列到序列"让输入输出都是变长的,注意力机制让解码时知道该"看原文的哪一部分"
- 2017:Transformer 论文(Attention Is All You Need)。这不是一个改进,是一次范式灭杀
💡2012 年 ImageNet 竞赛,AlexNet 把 Top-5 错误率从 26% 砸到 16%——领先第二名 10 个百分点。在学术界,领先 2-3 个百分点就算重大突破了。更重要的是,AlexNet 用了两块 GTX 580 显卡训练了 6 天,靠的就是 GPU 并行计算。从这之后,谁不用 GPU 谁就出局——整个行业一夜之间换了技术栈。在它之前,文本处理是 LSTM/RNN 的天下。它们的运作方式:读第 1 个词 → 读第 2 个词 → 读第 3 个词 → …… → 读第 500 个词
- 长距离依赖关系("因为……所以"中间隔着 200 个字)几乎捕捉不到
Transformer 的 Self-Attention 一次性解决了这个问题:代价是 O(n²) 的计算复杂度——这也是前面文章聊过的 KV Cache 显存压力和 Lost-in-the-Middle 效应的根源。但能力的跃升远超代价,此后所有大模型都长在 Transformer 的骨架上。💡Transformer 之外,深度学习还留下了什么:2015 年 ResNet 用 152 层网络拿下 ImageNet 冠军,"残差连接"让网络可以无限加深而不退化——这个设计后来成了 Transformer 里 skip connection 的原型。2016 年 AlphaGo 击败李世石,整个世界第一次意识到"机器可以在人类最引以为傲的领域赢"。同年,GAN(生成对抗网络)开始生成逼真人脸——深度伪造的概念从此诞生。深度学习不只是 Transformer 的前奏,它重新定义了"计算机能做什么"的边界。
这一代推翻了一个基本假设:不再给每个任务训练一个独立模型。而是在海量语料上先训一个"语言底座",然后在这个底座上,用很少的数据适配下游任务。- 2018:BERT(Google)——用双向注意力做预训练,在 NLP 的 11 个 Benchmark 上屠榜。"预训练 + 微调"范式彻底确立
- 2018:GPT-1(OpenAI)——和 BERT 相反,只用单向的"预测下一个词"。当时效果不如 BERT,但方向走对了
- 2019:GPT-2(15 亿参数)——发现"参数大了,不微调也能做很多任务",第一次探测到 scaling 的威力。当时争议很大——OpenAI 一度不敢开源完整模型,说"这玩意儿可能被滥用"
💡2020 年 OpenAI 发表了著名的 Scaling Law 论文,揭示了三个变量的幂律关系:参数量翻倍,Loss 按固定比例下降;数据量翻倍,也是;算力翻倍,还是。这意味着你不需要什么灵丹妙药,只需要堆更多的数据、更大的模型、更多的 GPU——性能就会可预测地提升。GPT-2 就是第一个实验证据:15 亿参数,不微调,直接做翻译、摘要、问答,效果已经接近专门训练的小模型。Scaling Law 的发现让整个行业从"怎么设计更好的架构"转向了"怎么堆更多的资源"。BERT 路线 → 双向语言模型,看重"理解",在 Benchmark 上分最漂亮GPT 路线 → 单向自回归,看重"生成",简单粗暴但架构上限更高
后来的历史证明:GPT 路线走得更远。 "预测下一个词"这种最自然的目标函数,不需要 BERT 那种精心设计的"挖空、打乱、预测"预训练任务,但架构上跟人类对话就是天然对齐的——对话本来就是一句一句往后说的。💡直觉上,BERT 的双向理解应该更强——毕竟它能看到上下文。但 GPT 路线有一个隐藏优势:它跟人类使用语言的方式天然对齐。人说话是一句一句往后说的,人听也是从左到右、边听边理解的。"预测下一个词"这个目标函数天然匹配了语言使用的物理过程,所以它做对话、写作、推理都更自然。BERT 擅长做选择题(判断句子的正误),GPT 擅长做作文题(从头生成连贯的文本)。前者是考试技巧,后者才是智能的本质。
参数从亿到千亿,模型自己长出了训练数据里没有教过的能力。- 2020:GPT-3(1750 亿参数)。第一次让世界看见"涌现"——小模型不会的翻译、写代码、做数学,参数大了之后自己就会了。不需要针对性训练。这个词本身也成了 AI 圈最重要的概念之一
- 2022.11:ChatGPT 发布。GPT-3.5 + RLHF,让模型学会"聊天"。两个月 1 亿用户,人类历史上增速最快产品。对大多数人类来说,这是第一次跟 AI 真正对话,不是搜关键词,不是按按钮,而是像跟人说话一样跟程序说话
- 2022.12:Constitutional AI 论文——Anthropic 的对齐路线正式亮相。"不让人类打分,让模型按宪法原则自己审查自己"
- 2023.03:GPT-4 + Claude 发布。多模态推理 + 超长上下文 + 强指令遵循
- 2023.06:OpenAI Function Calling。模型第一次原生支持工具调用——注意这里说的是"原生",不是十几行 Python 里的 "Action: shell" 那种肌肤止痒级别的实现。工具调用变成一等公民,Harness 的进化由此起飞
- 2024~2025:Claude 3.5→4、DeepSeek V3→R1。预训练的"出厂能力"逐渐拉平,行业分化转向"后训练怎么做"。R1 用纯 RL 炸出了推理涌现,Claude 用 Constitution AI 把安全做成精细刻度。后训练成为主战场
- 2025:Agent 元年。LLM 从"聊天"走向"干活"。Claude Code、Cursor、Devin 让 LLM 开始操作真实工程环境。也是这一年,"Harness"从一个没人讨论的冷门概念变成限制 Agent 能不能进入生产环境的决定性因素
💡幻觉墙——模型自信地编造不存在的事实。2023 年纽约律师用 ChatGPT 写诉状,引用了六个完全虚构的判例,被法官当庭揭穿。这不是bug,是"预测下一个词"机制的固有副产品——模型追求连贯,不追求真实。对齐墙——模型知道正确答案,但给出的回答不符合人类期望。RLHF 和 Constitutional AI 就是在解决这面墙:不是让模型更聪明,而是让模型更"像人"。安全墙——越强的模型越能被越多人使用,也就越容易被滥用。从生成钓鱼邮件到编写恶意代码,能力越强,护栏越难修。2025 年 Agent 元年让这个问题更加尖锐:当 AI 不只是回答问题,而是真的能执行操作,安全就不再是一个学术讨论了。💡GPT-3 论文里最震撼的发现:小模型做不好的任务,参数到了一定规模后突然就会了——不是"慢慢变好",而是"突然会了"。比如 Few-shot learning:给模型几个例子,它就能做从未见过的任务。这不需要针对性训练,不需要更新参数,只是参数够多+数据够多。更进一步,研究者发现了"思维链推理"——在回答前让模型先"想一想",推理能力就跳了一个台阶。这种能力在训练数据里从未出现过,纯粹是规模到了之后的自发产物。
趋势很清楚:人在定义"智能"这件事里占的比重越来越低,数据和算力占的比重越来越高。
不只是线性堆数据堆参数,中间有三个思维层面的断裂,没有它们就没有 LLM:拐点一:从"设计规则"到"让数据说话"(1980s)之前:人类理解决策过程 → 把过程写成代码 → 机器执行之后:人类准备标注数据 → 机器学习映射 → 机器自己分类
这个拐点让人意识到:很多我们认为"需要逻辑推理"的问题,本质上是对大量历史样本的统计建模。拐点二:从"为每个任务训模型"到"训一个万能底座"(2018)之前:分类任务训分类器,翻译任务训翻译器,问答任务训问答器之后:在大语料上训"语言本身",语言能力覆盖了所有下游任务
这个拐点让人意识到:语言不是"很多个任务的集合",语言是一个统一的能力。 "理解"是这种能力的涌现属性,不是分功能开发出来的模块。之前:模型能力 = 训练数据的统计模式之后:模型效果 = 训练数据 + 人类偏好对齐(RLHF/DPO/Constitution AI)
这个拐点让人意识到:"知道正确答案"和"知道人类想要什么"是两种不同的目标函数。 一个模型数学 100 分但如果回答让人不舒服,它就不是一个"好用"的模型。从这一步开始,训练分成了两件事:学知识(Pretrain),学做人(对齐)。三个拐点合在一起,定义了我们今天对"智能"这件事的理解方式。
✅一句话总结:AI 的发展史,就是人类一步步把自己的"先验知识"从模型里拆除的过程。拆得越干净,涌现得越惊艳。如果只看表面,七十年 AI 史是"算力变大、数据变多、参数变多"的技术升级路线。但这条线掩盖了一个更深的真相:每一次进步,都不是因为我们"教"得更多了,而是因为我们"教"得更少了。