你用的 AI,其实已经等了你七十年

上篇聊了LLM应用技术栈的7层结构，感兴趣的可以看看Andrej Karpathy 也认同的 LLM 应用技术栈分层是什么样？其中，第一层是基础大模型。说到大模型，我有时候会想一件很奇怪的事。

你现在打开 Claude 或者 ChatGPT，用一句话跟它聊天，它能用你能看懂的语言回你，能理解你话里的语气，甚至能感觉到你今天心情好不好。

这件事，太震撼了！

震撼的同时，当你真正想清楚这背后经历了什么，你会意识到，我们现在活在一个密度极高的历史时刻里。

这个时刻，是几代人用几十年的时间，踩着无数个错误和沮丧，一点一点堆出来的。

今天，咱们一起回看一下这段历史。

有趣的故事，要从1956年说起。

那年夏天，美国达特茅斯学院开了一个研讨会。当时聚集的都是一群对计算机痴迷的年轻人，其中有个叫约翰·麦卡锡的，他提出了一个词，「人工智能」。

就这样，这件事有了名字。

那个年代的人对 AI 的想象，更接近科幻片里的机器人，能下棋，能解数学题，能和你对话。

研究者们在搞一种叫「专家系统」的东西，就是把人类专家的知识硬编码进去，规则写死，让机器按规则走。

效果确实有一些，但问题也很明显，规则永远写不完。

你不可能把世界上所有的逻辑都人工穷举出来。

这条路，走了几十年，基本上就撞墙了。

研究经费被砍，AI的冬天来了，不是一次，是两次。

那段时间研究者们大概是有点绝望的，干着干着发现，这玩意好像没有想象中那么简单。

然而，历史的脚步不会停歇，机器学习出现了！

机器学习这个转变，现在回看，有点像一次哲学层面的革命。

以前的路是，人告诉机器「规则是什么」。

机器学习说，算了，别告诉它规则了，给它数据，让它自己去学。

你给机器看一万张猫的照片，再给它看一万张狗的照片，让它自己找规律，最后它能分辨猫狗。你不需要告诉它「猫有尖耳朵、猫有胡须」，它自己总结出来了。

这个思路在八九十年代逐渐成熟，各种算法冒出来，决策树、支持向量机、随机森林，都是这个时期的产物。

但有一批研究者，对这些不满意。

他们盯着人类的大脑，想，为什么我们学东西那么快，那么灵活？那里面有什么秘密？

他们开始模拟人类的思考，梦想者创造出电子神经元。

神经网络的故事，是这段历史里最让我觉得感慨的部分。

1943年，还没有麦卡锡提出AI这个词的时候，两个人，麦卡洛克和皮茨，就发表了一篇论文，试图用数学来模拟神经元。

这之后几十年，各种人在这个方向上摸索。

到了1980年代，有个东西叫反向传播算法被推广开来，神经网络总算有了一种能让自己变聪明的方法，通过不断试错，调整参数，往正确答案靠近。

但神经网络一直有个死穴，算力不够。

你要训练一个有很多层的网络，计算量是指数级增长的，那时候的计算机根本撑不住。

所以神经网络在很长一段时间里是个「看起来很美但跑不起来」的东西，学术界觉得它太慢太难训练，大家都转去搞其他方法了。

坚持下来的人很少。

辛顿是其中一个!

Geoffrey Hinton这个人，你现在可能知道他，2024 年拿了诺贝尔物理学奖，那会儿很多人说他是「AI教父」。

但在很长一段时间里，他是那种被主流嫌弃的研究者。

他一直相信神经网络是对的路，哪怕整个领域都在往别处走，哪怕开会的时候别人觉得他在搞一个没有前途的东西，他还是在搞。

2006年，他提出了深度信念网络，给深度学习的复活打了第一针。

2012年，他的学生用一个叫AlexNet的深度神经网络，参加了ImageNet的图像识别比赛，把识别错误率从26%降到了16%，比第二名低了将近10个百分点。

这个成绩出来的时候，整个计算机视觉领域愣住了。

那一年，被很多人称为「深度学习元年」。

从那之后，事情开始加速。大家突然意识到，原来这玩意真的行，只是以前算力和数据都不够。

现在GPU可以并行计算，互联网上有海量数据，那，来吧。

深度学习爆发之后，各种任务上的成绩开始被一个接一个地刷新。

图像识别、语音识别、机器翻译，一个一个被干翻。

但自然语言学习，是最难的那个。

自然语言太复杂了。「我没有说他偷了那本书」，这句话如果重音落在不同位置，意思是完全不同的。上下文、语气、常识、文化背景，全都揉在里面。

处理自然语言的早期模型有个痛点:

它们很难处理长距离的依赖关系。

比如一句话说了很长，开头提到的东西，结尾要用，这对早期的循环神经网络是一个很大的挑战。

2017年，谷歌的研究者们发了一篇论文，标题叫「Attention is All You Need」。

就是这篇论文，把一个叫Transformer的结构带进了世界，也把整个自然语言AI的历史，从此劈成了两半。

Transformer的核心思路是注意力机制，我用大白话讲一下。

处理一个句子的时候，不是把它从头到尾顺序过一遍，而是让每个词去「看」句子里所有其他的词，判断哪些词和自己最相关，然后根据这个相关程度来理解自己的含义。

这就是「注意力」。

你在理解一句话里的某个词时，你的注意力会更多地放在那些对理解它有帮助的其他词上。

这个机制让模型能更好地捕捉上下文，而且天然适合并行计算，能把模型做得很大。

接下来发生的事情，就有点像滚雪球了。

2018年，谷歌发布BERT，在一系列语言理解任务上碾压了所有人。

同年，OpenAI发布了第一代GPT。

然后，GPT-2，GPT-3，参数规模从一亿，到十亿，到一千七百五十亿。

GPT-3 的出现是跨时代的！伴随它的 ChatGPT ，让普通人也能和 AI 聊天了！

2025 年，多模态能力大幅提升，不止能读懂语言，还能看懂图！甚至，Deepseek 抛出了重炮炸弹 Deepseek-v3 开源模型！当时，全国，不全世界都疯狂了！技术平权要来了！

到了 2026 年，大模型的能力好像用在了自我进化上，疯狂地往前狂奔！Claude opus 4.7刚发布，GPT 5.5 紧接推出，国内的Deepseek-v4 也再次展现开源模型的强大！

我有时候觉得，大模型这件事，不只是技术的胜利，它背后有一个深刻的赌注被证明是对的，

那就是，规模，是有意义的。

这个赌注在早期是充满争议的。更大的模型，更多的数据，更多的算力，真的会让模型更智能吗？还是说到某个点会遇到天花板？

事实证明，这个赌注是对的，而且还没看到清晰的天花板。

这很难用传统的工程思维解释，感觉更像是，量变引起了质变。

你越用大模型，它学习的越多，全世界都帮助它们疯狂成长！

好，说到这里，我想停一下，聊点我自己的感受。

做了十多年软件架构，我见过太多技术浪潮了。SOA、微服务、容器化、Serverless，每一波出来的时候都有人说「这次真的不一样」，然后你跟着评估，跟着落地，跟着踩坑，最后发现，它确实有用，但也没那么神，世界缓慢地变了一点点，然后又平静下来。

所以我不是那种容易被一项技术搞得很激动的人。

但这段历史看完，我有个感觉，跟以前不一样。

以前的每一次技术革命，改变的是系统的「结构」。

微服务让系统拆得更细，容器让部署更灵活，云计算让资源按需取用。

这些变化，工程师需要重新学，但那个「我在设计一个系统」的感觉没变，还是你在画架构图，你在决定数据怎么流，你在定接口协议。

大模型改变的是另一层，它把「意图」和「实现」之间的距离，压缩了。

一个十年前的架构，从需求到设计到编码到测试，每一步都需要人把「想要什么」翻译成「机器能理解的语言」。这个翻译过程，就是我们这些工程师存在的核心价值。

现在有点不一样了。你用自然语言描述需求，它能给你出一个可以跑的原型。你不满意，你继续说，它继续改。这个过程里，「翻译」这件事，它开始能参与了。

我不是说这会让架构师消失，我是说，这一次动的是更底层的东西，是「人和机器之间的接口」本身。

这对我来说，比任何一次我见过的技术变革，都更难预测它的边界在哪里。

那，了解这段历史，对我们来说意味着什么？

我想抛几个问题，大家一起来想一想。

第一个，我们正在经历的这一刻，在技术史的坐标上，大概在什么位置？

你可以类比1990年代初的互联网，当时浏览器刚出现，大多数人不知道互联网能干什么，但有一批人，开始模糊地感觉到，这个东西会改变很多事。

那些人，后来都去做了什么？

第二个，技术的进步，从来不是线性的，也从来不是顺滑的。

神经网络被抛弃过，AI有过两个冬天，辛顿坚持了几十年才被认可。那些看似「走进死路」的阶段，往往只是当时算力和数据跟不上，而不是方向本身是错的。

那今天，你觉得，哪些「现在看起来没用」的方向，可能只是在等待它的时机？

第三个，也是最让我个人着迷的，

这段历史里，真正推动事情往前走的，从来不是「大多数人觉得对的方向」。麦卡锡他们当年推的专家系统，是主流，后来被机器学习颠覆。深度学习在2000年代是边缘研究，2012年之后突然成了一切。

什么时候应该相信主流，什么时候应该赌一个「现在是少数派但我觉得是对的」的方向？

这个问题，我没有答案。但我觉得，你知道这段历史之后，再来想这个问题，会想得更扎实一些。

你用的 AI，其实已经等了你七十年。

从达特茅斯那个夏天，到2012年的AlexNet，到2017年的Transformer，到现在你打开手机跟它说话，每一步都有人在某个地方，咬着牙，做别人觉得没意思的事情。

这一段，我觉得值得记住。

不是因为要感恩，而是因为，咱们接下来要做的任何一件事，也是这段历史的延续。

大时代啊，朋友们。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。