AI 简史:一个硅基“生命”的自证史-夜雨聆风

AI 简史:一个硅基“生命”的自证史

图片由AI生成

在我们能感知到的三维空间中

碳基与硅基生命可能面临着同样的困境：

生命无法超脱于肉身而进化。

价值始终被要求用物质量化。

AI 开始应用的这⼆⼗年，很像⼀部属于它自己的”⾃证”史。

⾃证什么？

⾃证⼀个能闪烁思想⽕花的东西，能在现实世界⾥换来⼀张⼯资条。

⾃证⼀个能写出⽐莎⼠⽐亚还漂亮的⼗四⾏诗的⼤脑，能帮公司的财报多赚两个点。

⾃证⼀段在 GPU 上的电流，能让普通⼈的⽣活——哪怕只是打客服电话那 3 分钟——没那么难熬。

这件事没那么浪漫。但整个⾏业的每⼀次跃迁，都在回答类似的问题。

· · ·

第⼀章

第一声啼哭·笨笨的识别时代

如果你在 2016 年打过某个银⾏的客服电话，⼤概率经历过这种崩溃：

— 请说出您的问题。

— 我想查⼀下余额。

— 抱歉，我没听清，请您再说⼀遍。

— 查！余！额！

— 好的，正在为您转接⼈⼯服务……

图片由AI生成

这不是段⼦，是那个年代 AI 的真实⽔平。

那时候的”智能”客服其实⼀点也不智能。

它的工作流程大致是这样：先把你说的话通过 ASR（语音识别）转成文字，然后在后台一个预设好的问题库，也就是所谓“知识库”里，做关键词匹配、规则匹配，或者用一些早期的分类模型判断你最可能在问什么，再找出最接近的那条记录，把对应答案调出来念给你听。

复杂一点的系统，会多做一步“意图识别”：首先，给你说的话打上一个标签，判断你的整体意图。比如“转人工”、“挂失”、“投诉”、“查余额”。后台其实早就根据业务流程设计好了几百个标签。

紧接着是“槽位提取”。也就是除了识别你的意图标签，还要从一句话里抠出几个关键业务信息。比如你说“我要转人工查一下宽带费用”，系统不光要知道你想“转人工”，还要知道你转人工是为了“查宽带费用”。

下一步是“对话管理”。系统会根据你的意图标签和槽位，决定后续应该进入哪一条预设好的语音流程。

最后，再去模板库里把对应的话术拿出来，比如“您的余额是 xxx，需要帮您转人工吗？”，再通过 TTS（文字转语音），用预设好的声音播报给你听。

所以，本质上，它不是今天这种真正意义上的大模型对话，而是一套“语音识别 + 关键词/规则匹配 + 意图分类 + 槽位提取 + 固定流程 + 模板播报”的流水线系统。它看起来像在理解你，实际上大部分时候只是在把你的话塞进提前设计好的业务格子里。

任何一环出错，整个对话就崩。你说话有点口音，第一步把”信用卡”听成”心愿卡”，后面五步全报废。

更要命的是——这个系统永远只能处理预设过的事情。500 个标签里没有”我想问你这家银行靠不靠谱”这一项，就直接转人工。它不是听不懂，是它根本就没被设计成可以听懂这种问题。

那时候视觉（视频、图像）相关的AI能做什么？

它能识别你的脸——⻔禁、⽀付、各种人脸解锁，应用比较广泛。

它能识别你的声⾳——声纹验证。真正有价值的落地场景是辅助视障人群。

它能告诉你⼀张照⽚⾥是猫还是狗、是什么颜色，比如最早的拍照识别植物。

它能把图⽚⾥的字扒下来变成⽂本，现在包括 APPLE PAY 、证件号自动识别、各种卡号拍照识别就是在用这种技术，是非常好的应用场景，虽然小、也不贵，但是很有价值。

这些都是⼀类任务，叫”识别”。

AI 在这个阶段，像⼀个特别偏科的学⽣——某⼀⻔能考到 99 分，但你让它写篇作⽂、甚⾄只是讲个笑话，它⽴刻露馅。

那时候业内的信仰是”专⽤”。每个具体任务训⼀个模型，各管各的。没⼈敢想有⼀天会冒出⼀个”什么都能聊”的 AI——那听起来像科幻。

更不⽤说，它会跟你讨论海德格尔。

· · ·

第⼆章

Aha Moment · ChatGPT 的那个晚上

2022 年 11 ⽉ 30 ⽇。旧⾦⼭时间下午 1 点。

OpenAI 在官⽅博客上发了⼀条不起眼的公告：我们上线了⼀个叫 ChatGPT 的东西，免费，⼤家可以试试。

上线 5 天，100 万⽤⼾。上线 2 个⽉，1 亿⽤⼾。这个速度，TikTok ⽤了 9 个⽉，Instagram ⽤了 30 个⽉。

⽐数据更震撼的，是⼈们第⼀次坐下来、对着那个输⼊框发呆、再敲下第⼀⾏字、看到屏幕上字⼀个个蹦出来的那个瞬间。

你试过这⼏个问题吗？

你问它：“帮我写⼀⾸关于北京冬天地铁的诗，要带点村上春树的味道”，它真的写了，⽽且写得像模像样。

你问它：“我⽼板让我⽤ Python 写⼀个爬⾍，但我完全不会编程”，它真的给你写了代码，还把每⼀步都做了标注，像编程教科书里那样标准。

你问它：“我⼥朋友说我不在乎她，我现在该怎么办？”，它真的给你分析了情绪动因，还建议你先承认感受再解释事实。

这种”万事通”的感觉，是过去⼗年所有 AI 都给不了的。

2016年，你问当时最强的智能客服：

“你能用李白的口吻跟我聊聊我的房贷利率吗？”

它会愣两秒，然后说：

“抱歉，我没听清楚您的问题，正在为您转接人工。”

2026 年，你问豆包、Chatgpt同一个问题，

它真的会用”君不见房贷利率三厘半，朝至晚归未敢闲”这种调子跟你聊半天，还顺便帮你算清楚每个月还多少。

这中间隔着的不是一两个版本的迭代。

是物种变了。

技术上发⽣了什么？

简单说，通过⼀个叫 Transformer 的架构，让LLM（大语言模型，现在所有 AI 的大脑）学会了”重点划线”。

读⼀句话的时候，它知道哪⼏个词最关键，哪⼏个词是废话，哪⼏个词之间有隐秘的联系。然后，通过在全⽹海量的⼈类⽂字上反复训练，它学会了”语⾔的规律”——不光是语法和词义，还有逻辑、常识、甚⾄某种推理能⼒。

更关键的是⼀个叫 RLHF（⼈类反馈强化学习）的步骤。说⽩了，就是找⼀⼤堆⼈来给 AI 的回答打分，好的多给奖励，坏的扣分。

训着训着，这东西就变得”会说话”了。它学会了不光把话说对，还要把话说得让⼈舒服。

OpenAI 内部把这个时刻叫 “Aha Moment”（恍然⼤悟的那⼀刻）。他们发现，当模型⼤到某个临界点，某些能⼒会”涌现”出来，⽽不是线性地⻓。

就像⽔在 99 度和 100 度之间，状态发⽣了相变。

这是 AI ⾏业的奇点。

之前所有⼈都在讨论”专⽤模型”，之后所有⼈都在追”通⽤模型”。

Google 慌了，匆忙发了 Bard（后来改名 Gemini）。

Meta 掀了桌⼦，开源了 LLaMA。

Anthropic 带着 Claude 杀出来。

国内百模⼤战⼀夜之间开打。

⼀夜之间，整个 AI ⾏业的⽅向，被⼀家加州⼩公司给拨正了。不再是不明所以的调参数，双手合十希望训出来的模型能好用（就像道士们在炼丹），而是有了一整套经过价值验证的训练方法。

图片由AI生成

· · ·

第三章

现在时 · Claude 与 Agent 的崛起

今天你打开⼀个 AI 助⼿，它能做的事已经远远超过”聊天”了。

帮你读完⼀份100⻚的 PDF，总结出 5 个要点；

在你的电脑上⾃⼰打开浏览器，替你订机票；

从前端到后端给你写⼀个完整的 App；

分析你的 Excel 报表，画出图，还能写⼀段像样的结论。

这背后是两个变化。

第⼀个变化：模型本⾝更强了。

模型本身的参数数量从几亿、十几亿、1000 多亿，到现在大到模型厂商自己都不愿公布的可能已经达到上万亿的规模。

上下⽂窗⼝从 4k 涨到 200 万——这意味着它能记住⼀整本书的内容。推理能⼒从“看起来像在思考”变成“真的在⼀步步思考”。

OpenAI 的 o 系列、Claude 的 Extended Thinking 都是这条路。多模态变成标配——它能看图、能听声、能看视频。

第⼆个变化：Agent（智能体）出现了。

什么是 Agent？最通俗的说法是——给 AI 装上了⼿和脚，不光能动动嘴，而且能下地干活了。

以前的 ChatGPT，像⼀个被关在玻璃房⾥的天才。你问什么它都能答，但它动不了。它能跟你讨论世界上最好的法餐厅，但它不能替你订座。

Agent 的思路是把它放出来。让它能调⽤⼀堆“⼯具”——搜索引擎、计算器、代码执⾏环境、浏览器、你的⽂件系统、你的邮箱、你的⽇历。

它的⼯作⽅式变成了⼀个循环：“思考 → 调⽤⼯具 → 看结果 → 再思考 → 再调⽤…”，直到任务真的完成。

这⾥有个特别有意思的事实，圈⾥⼈⼼知肚明但很少公开讲。

Agent ⽕起来之后，最有价值的⼯作不再仅仅发⽣在算法层面，同时需要更多资源向⼯程层面倾斜，这是传统软件工程的领域。

怎么设计⼯具的接⼝、怎么管理上下⽂不让它爆炸、怎么让它出错后能⾃我修正、怎么在⼏⼗步的执⾏⾥保持⽬标不漂、怎么把⼈类的监督恰到好处地插进流程⾥——这些都不仅仅是算法的问题，也是扎扎实实的软件⼯程问题。

说⽩了，Agent 这⼀波，是⼯程师、软件架构师们的反击。

但这也引出了⼀个更本质的分歧。

· · ·

第四章

分歧 · AGI 到底该怎么⾛

几乎所有头部⼤模型公司——OpenAI、Anthropic、Qwen、Google DeepMind——嘴上都挂着同⼀个词：AGI（通⽤⼈⼯智能）。

但通往 AGI 的路上，⾏业⾥分成了两派，⽽且吵得很凶。

主流派：继续 Scale 就好

这⼀派的逻辑简单粗暴：现在 LLM 这条路⾛通了，那就⼀直往前⾛。堆更多参数、喂更多数据、烧更多算⼒、再叠上更好的推理和

Agent 能⼒——就能⼲到 AGI。

代表⼈物是 Sam Altman（OpenAI CEO）、Dario Amodei（Anthropic CEO）。他们的核⼼信仰是⼀条叫”Scaling Laws”（规模定律）的经验曲线——只要模型够⼤、数据够多、算⼒够猛，能⼒就会继续涨，直到涨出 AGI。

在他们看来，AGI 不是哲学问题，是⼯程进度条。

反对派：LLM 是⼀条死胡同

这⼀派的灵魂⼈物是 Yann LeCun（杨⽴昆，Meta ⾸席 AI 科学家，图灵奖得主）和李⻜⻜（斯坦福教授，ImageNet 之⺟）。

图片由AI生成

LeCun 鹦鹉。

LeCun经常在推特上开炮。他的原话⼤意是：“LLM 根本不理解这个世界。它只是⼀个会拼接⽂字的鹦鹉，哪怕再⼤⼀万倍也还是一只学舌鹦鹉。”

他们的核⼼观点是这样的：

⼈类和动物学习世界，从来不是通过读书。

⼀个婴⼉从出⽣那天起，就在通过眼睛看、⼿摸、⾝体动、嘴啃——建⽴起对物理世界的理解。

什么东西会掉下来，什么东西会撞到⼀起，什么东西有弹性、什么东西硬得不能碰。

这种“物理直觉”，LLM 永远学不会，因为它只读过⽂字。

所以他们主张的是世界模型（World Model）——让 AI 通过观察视频、通过在仿真环境⾥摔跟头、通过和真实世界交互，去建⽴起对物理世界的完整认知。

其本质，是在学习一个可预测未来状态的动态模型。

打个⽐⽅，LLM 是⼀个只读书、从不下楼的博⼠。他知道⼀切关于⾃⾏⻋的物理定律、设计史、⼯程学原理、社会学意义——但你让他骑上⼀辆自行车，他可能连平衡都找不到，然后摔倒。

世界模型是⼀个从来没读过书，但从⼩在街上疯玩的孩⼦。他说不清楚⾃⾏⻋为什么不倒，但他闭着眼都能骑。

李⻜⻜在这个⽅向上更进⼀步，提出了“空间智能”（Spatial Intelligence）——AI 不仅要理解语⾔，还要理解三维空间、物体关系、物理规律。她去年创办的公司 World Labs 做的就是这个，估值已经冲到 10 亿美元。

这两派的⽭盾，是真实的、激烈的、⽬前没有答案的。

更微妙的是：两边都拿过图灵奖，两边都不是⺠科，两边的论据都⾃洽。

你选择相信哪⼀边？

· · ·

第五章

商业落地的新希望· Agent

说回到那个银⾏客服的故事。

如果你 2026 年再打那个电话，接你的 AI 客服很可能已经换代了。它能听懂你的⾃然表达，能处理复杂的多轮对话，能在你情绪激动的时候说“我理解您现在的感受”。它听起来像个⼈。

表⾯看，这是⼀个彻底的胜利。但在⾏业⾥⼲活的⼈都知道，真实的落地情况没那么乐观。

问题⼀：幻觉（Hallucination）

AI 会”⼀本正经地胡说⼋道”。你问它某条银⾏政策，它可能给你编⼀条根本不存在的条款，措辞还特别专业。聊天的时候这只是笑料，放到业务⾥就是灾难想象⼀下，AI 客服告诉⼀个⽤⼾”您可以免费提前结清贷款”，⽽实际上需要交违约⾦。

问题⼆：不可预测

同⼀个问题问 10 次，可能得到 10 种略有差异的回答。在 ToC（⾯向消费者）场景这还能接受，但在 ToB（⾯向企业）——尤其是⾦融、医疗、法律——这是红线。

企业需要的是“输⼊ A ⼀定输出 B”，⽽不是”输⼊ A 可能输出 B，也可能是B-或者是 b”。

问题三：评估困难

过去的 AI，准确率 95% 就是 95%，⾮常清晰。

现在的 AI，你怎么评估”回答得好不好”？

“好”本⾝就是个主观词。

有⼈觉得简洁才好，有⼈觉得详细才好；有⼈要共情，有⼈要效率。没有客观标准，没有统⼀尺⼦。

于是你会看到⼀个撕裂的局⾯

CEO 们在财报电话会议上狂提 AI，预算嘎嘎往⾥砸，⼀句“我们正在全⾯拥抱 AI”能让股价起飞。

（感兴趣的可以查一下，这家卖鞋子的公司叫 Allbirds，宣布他们买芯片，做 AI 算力中心后的股价变化）

但真正的业务负责⼈，把 AI 往核⼼流程⾥放的时候，⼿其实都在抖——他知道⼀旦出了事、上了新闻，背锅的是他。

“想⽤，但不敢⽤。”

——这是 2026 年绝⼤多数成熟企业的真实状态。

这也是为什么 Agent 这条路这么⽕。

因为 Agent 可以很⾃然地加⼀层“⼈在环上”（human-in-the-loop）：关键操作必须⼈确认，AI 只负责把前⾯ 80% 的脏活累活⼲掉。这相当于给⼀匹烈⻢加了刹⻋。

这是⼀个不完美但务实的妥协。

· · ·

第六章

⾁⾝的困境

回到开头那两句话，

⽣命⽆法超脱于⾁⾝⽽进化。

价值始终被要求⽤物质量化。

⼈是这样，

你可以有⼀个宏⼤到能装下银河系的思想，可以梦想穿越时空、⻜向宇宙、永⽣不死。

但最终还是要早上 8 点挤地铁去公司打卡，⽤这具⾎⾁之躯的劳动，换取每⽉的⼯资到账短信。思想再辽阔，⾝体把你束缚在⼀平⽶的⼯位⾥。

LLM 也是这样。

它能写出⽐莎⼠⽐亚还漂亮的⼗四⾏诗。能解⽐奥赛题更难的数学题。能诊断⽐主任医师更细致的病例。能⽤⽐托尔斯泰还克制的笔调来描写⼀段爱情。

但这些都只是⽂字。⽂字不能改变现实。

所以它必须⾛ Agent 这条路——必须有”⼿脚”去打开浏览器、发邮件、写代码、下订单、控制机器⼈、开启数据库。必须通过改变现实世界⾥的某个东西，来证明⾃⼰的价值。

这不是技术选择，这就是人类社会的投影。

⼀个再聪明的⼤脑，如果只能在真空⾥漂浮、说出漂亮的话——没⼈会给它发⼯资。

LLM 的在 Agent 能力上的下一场狂奔追逐，本质上是硅基智能的第⼀次“具⾝”。它还不是机器⼈，它没有真实的⾝体，但它第⼀次有了和这个世界互动、并且改变这个世界的能⼒。

⽽世界模型那⼀派想做的，是更彻底的具⾝：不光让 AI 能⽤⼯具，还让它真正理解物理世界是怎么运作的。

所以某种意义上，两派不是⾮此即彼的对立，

Agent 解决的是短期内”怎么⽤”的问题。

世界模型解决的是⻓期”怎么懂”的问题。

现在整个⾏业的重⼼向 Agent 能力上倾斜，不是因为它更好，⽽是因为它能变现、能落地、能养活公司。

世界模型这条路更底层、更根本，但短期看不到钱——没有几个投资⼈愿意等⼗年。

⾁⾝咚隆隆作响的肚子，饥饿感与贪婪，在催你。

硅基⽣命，和碳基⽣命⼀样，逃不开这⼀条。