为什么 AI 在今天爆发?复盘人工智能 70 多年的演进逻辑

最近一段时间，我刷到很多关于人工智能的内容。

有人讲大模型，有人讲智能体，有人讲多模态，有人讲 AI 绘画、AI 视频、AI 编程。每一个片段单独看都很热闹，但看多了之后，我反而产生了一个问题：

人工智能到底是怎么一步步走到今天的？

作为一个爱复盘、爱输出的写作者，同时也是 AI 从业者，我越来越觉得，如果只看当下的热点，很容易被一个个新名词推着走。

今天一个模型刷屏，明天一个产品爆火，后天又有人说某个新方向会重构行业。信息很多，概念很密，但如果没有一条清晰的历史主线，很多人其实很难判断：哪些是真正的技术变化，哪些只是阶段性的产品热闹。

所以我想重新写一遍人工智能发展史。

但这篇文章不想写成一份年份表，也不想写成一本压缩版教科书。因为 AI 的历史，本质上不是一串时间节点，而是一代代技术不断解决上一代问题的过程。

人类最开始想让机器变聪明，于是试图把规则写给机器。后来发现规则写不完，于是让机器从数据中学习。再后来发现普通学习还不够，于是用深度神经网络学习更复杂的模式。再后来，模型规模、数据、算力和架构一起突破，大模型出现。到了今天，AI 又开始从“会回答”走向“会理解、会推理、会行动”。

如果把这条线看清楚，很多今天看起来很新的概念，其实都能找到它们的来路。

在讲历史之前，先搞懂 AI 到底是什么

在正式进入历史之前，我们得先回答一个最基础的问题：什么是人工智能？

很多人一提到 AI，脑子里想到的是聊天机器人、AI 绘画、自动驾驶，或者各种能写文案、写代码、做 PPT 的工具。

这些当然都属于 AI 的应用，但如果往底层看，人工智能要解决的其实是一个更古老的问题：

能不能让机器具备一部分像人一样的智能？

那什么又是“智能”？

我们可以先不用复杂定义，直接从一个生活场景理解。

比如一个人过马路。

他首先要看到红绿灯，听到汽车声音，这是感知。

他要理解红灯停、绿灯行，这是理解。

他要判断现在能不能走，这是推理和决策。

最后，他迈开腿走过马路，这是执行。

所以，智能并不是某一个单点能力，而是一整套链路：感知、理解、推理、决策和执行。

人工智能想做的，就是让机器在某些场景里也具备类似能力。

摄像头、麦克风、传感器，可以帮助机器感知世界。算法和模型，可以帮助机器理解信息。决策系统，可以帮助机器判断下一步该做什么。机器人、软件工具、自动化系统，则可以把判断转化成行动。

理解了这一点，再来看 AI、机器学习、深度学习、大模型之间的关系，就会清楚很多。

人工智能是最大的概念，凡是让机器表现出某种智能能力的技术，都可以放进这个大框里。

机器学习是实现人工智能的一条重要路线，它的核心是让机器从数据中学习规律，而不是完全依赖人类手写规则。

深度学习是机器学习的重要分支，它通过多层神经网络学习复杂特征，尤其擅长处理图像、语音、语言这类复杂数据。

大模型则是深度学习发展到一定阶段后的产物。它依赖更大的数据、更强的算力、更复杂的模型结构，最终让 AI 拥有了更强的语言理解、内容生成和任务泛化能力。

所以，当我们今天讨论大模型、智能体、多模态时，其实讨论的是人工智能这棵大树上最新长出来的枝叶。要理解它们为什么重要，还是要先回到根部。

AI 的起点：机器能思考吗？

今天我们讨论 AI，通常会从大模型、智能体、多模态开始。

但人工智能真正的起点，远比这些早得多。

它最早不是一个产品，也不是一个应用，而是一个问题：

机器能思考吗？

1950 年，艾伦·图灵提出了这个问题。为了避免陷入“什么才算思考”的哲学争论，他设计了一个更可操作的测试，也就是后来著名的图灵测试。

你可以想象这样一个场景：一个人坐在房间里，只能通过文字和两个对象交流。一个对象是真人，另一个对象是机器。如果聊了很久之后，这个人仍然分不清哪个是人、哪个是机器，那么我们是否可以说这台机器具备了某种智能？

图灵测试的重要之处在于，它把“机器能不能思考”这个抽象问题，变成了一个可以被讨论、被实验、被验证的问题。

当然，以今天的眼光看，能在对话中骗过人类，并不等于真正拥有智能。机器可能只是模仿得很好，并不一定真的理解。但图灵的意义不在于给出了最终答案，而在于他为人工智能打开了一扇门：人类第一次严肃地把“机器智能”当成一个科学问题来研究。

此后，一些科学家开始尝试从不同方向靠近这个问题。

1943 年，沃伦·麦卡洛克和沃尔特·皮茨提出了早期人工神经元模型，试图用数学方式描述神经元如何工作。这为后来的神经网络奠定了思想基础。

1956 年，达特茅斯会议召开。约翰·麦卡锡、马文·明斯基、克劳德·香农等人聚在一起，正式提出了“人工智能”这个术语。也正是从这次会议开始，人工智能被视为一门独立学科。

现在回看，达特茅斯会议有一种非常特别的历史气质：它既充满想象力，也带着明显的乐观主义。那一代研究者相信，只要科学家们集中研究一段时间，就能在机器学习、语言理解、抽象推理等方面取得重大突破。

他们看到了一个宏大的方向，但也低估了这个方向的难度。

从那以后，AI 的历史就开始在乐观与失望、突破与瓶颈之间反复摆动。

次黄金期：人们曾经相信规则可以创造智能

如果站在今天回看，早期 AI 的乐观程度甚至有点不可思议。

那时候很多研究者相信，只要给机器写足够多的规则，机器就能一步步接近人类智能。

这种乐观不是凭空来的。因为在一些封闭问题里，机器确实很快展现出了让人惊讶的能力。

比如，早期的 AI 程序可以证明数学定理。数学世界有明确的符号、规则和推导过程。如果机器能按照逻辑规则一步步推导结论，看起来就像是在“思考”。

再比如，早期的聊天程序可以根据用户输入给出回应。虽然它并不真正理解语言，但通过模式匹配和预设规则，它已经能在某些对话里表现得像一个人。

这些成功让人们产生了一种强烈的信念：智能或许可以被拆解成一套套规则。只要人类把规则写清楚，机器就可以按照规则推理，最终表现出智能。

这就是早期 AI 的主流路线之一：符号主义。

符号主义的想法很直接：人类的思考可以表示成符号和逻辑，知识可以写成规则，推理可以变成程序。那么，只要我们把足够多的知识和规则输入机器，机器就能像人一样解决问题。

这个思路在很多场景里确实有效。

比如翻译一个简单句子：“The apple is red.”

机器可以先查词典，把 The、apple、is、red 分别对应到中文词语。然后按照语法规则调整顺序，得到“这个苹果是红色的”。

在这个简单例子里，规则似乎很好用。

但问题是，现实语言远比这个句子复杂。一个词可能有多种含义，一个句子可能有隐藏语境，一个表达是否自然，也不只是语法正确就够了。

“这个苹果是红色的”当然没错，但日常表达里，我们可能更常说“这个苹果是红的”。这种细微的语感，规则很难完全覆盖。

更大的问题是，现实世界不是数学题。

数学题规则清晰，输入明确，答案确定。但现实生活充满模糊、例外、语境和不确定性。你可以给机器写一百条规则，但很快会发现，还有一千种情况没有覆盖。

早期 AI 的第一波繁荣，正是建立在“规则能够表达智能”的信念上。

而它后来的低谷，也正是因为人们发现：规则没有想象中那么万能。

次寒冬：现实世界比规则复杂得多

技术史里经常会出现一种现象：早期成功越耀眼，后来的失望就越强烈。

人工智能第一次寒冬，就是这样来的。

它不是因为 AI 完全没有进展，而是因为人们曾经承诺得太多，而当时的技术又交付不了那么多。

早期 AI 的问题，表面上看是算力不足、数据不够、算法有限。但更深层的问题是：人类低估了现实世界的复杂度。

我们可以用一个很简单的例子理解：如果让机器识别一只猫，规则式 AI 会怎么做？

你可能会告诉机器：猫通常有耳朵、有胡须、有尾巴、四条腿，会叫，身体柔软。

听起来还不错。

但问题马上出现了。

黑猫、白猫、橘猫都算猫。正脸猫、侧脸猫、趴着的猫也算猫。被遮挡一半的猫算不算？卡通猫算不算？玩偶猫算不算？没有尾巴的猫算不算？照片里只有一只耳朵和半张脸，算不算？

你越写规则，就越发现例外无穷无尽。

现实世界不是由干净整齐的规则组成的，而是由大量模糊、变化、上下文和概率组成的。

这让早期 AI 遇到了巨大瓶颈。

在语言任务中，机器翻译很快暴露出问题。简单句子还能处理，复杂语境就不行。

在视觉任务中，机器很难稳定识别真实世界里的物体。

在推理任务中，程序能处理封闭问题，却很难处理开放环境。

在神经网络方向，早期感知机也暴露出能力有限的问题，连一些简单的非线性分类任务都处理不好。

于是，曾经的乐观开始退潮。资金减少，项目停摆，外界对 AI 的期待迅速下降。

这就是人工智能历史上的第一次寒冬。

但我觉得，第一次寒冬留给后来的最大启示，不是“AI 不行”，而是：

第一代 AI 最大的问题，不是它完全不聪明，而是它只会在被定义好的小世界里聪明。

只要世界足够清晰，规则足够稳定，早期 AI 可以表现不错。可一旦进入真实世界，它就会发现自己面对的是一个远比规则库复杂得多的开放系统。

这次失败没有终结 AI，反而逼着研究者重新思考：如果规则写不完，那还有没有别的办法？

专家系统：AI 第一次真正走进产业

第一次寒冬之后，AI 没有立刻走向今天这种“自己学习”的路线。

当时很多人选择了一条更务实的路：既然通用智能太难，那就先让机器成为某个领域里的专家。

这就是专家系统的时代。

专家系统的思路很容易理解：把某个领域专家的经验整理成知识库，再用推理引擎根据这些规则进行判断。

比如医生诊断疾病时，会根据症状、化验结果、病史一步步判断。专家系统就试图把这些经验写成规则：如果出现 A 症状，同时 B 指标异常，那么可能是 C 疾病；如果再出现 D 情况，就提高某种判断的置信度。

在某些专业领域，这种方法一度非常有价值。

比如化学分析、医疗诊断、设备维护、金融判断等场景，都曾出现过专家系统的应用。它们证明了一件事：AI 并不是今天才开始进入产业。早在几十年前，人类就已经尝试把 AI 用到具体业务中。

专家系统的意义在于，它让 AI 从实验室走向了真实应用。

但它的问题也很明显。

首先是知识获取困难。很多专家的经验并不是一条条清晰规则，而是长期实践形成的直觉。专家自己能判断，但不一定能把判断过程完整说出来。

其次是维护成本高。一个复杂专家系统可能有成千上万条规则。新增一条规则，可能和旧规则冲突。修改一个判断条件，可能影响整个系统。

再次是泛化能力弱。一个医疗专家系统，不能直接变成金融专家系统。换一个领域，几乎要重新整理知识库。

所以，专家系统证明了 AI 可以在具体场景里创造价值，但也证明了另一件事：

靠人工喂知识这条路，无法无限扩展。

当人们发现知识很难被完整写出来时，一个新的问题出现了：能不能不再让人类一条条写规则，而是让机器自己从数据中学？

这个问题，推动 AI 进入了下一个重要阶段。

从规则到学习：机器学习改变了 AI 的方向

如果说早期 AI 的关键词是“规则”，那么后来 AI 复苏的关键词，就是“学习”。

这一步非常关键。

因为它意味着，人类不再试图把世界上一切规则都写给机器，而是开始让机器自己从大量样本中寻找规律。

这就是机器学习。

我们可以用垃圾邮件识别来理解这个变化。

如果用规则式方法，你可能会这样写：

只要邮件标题里出现“免费”，就判断为垃圾邮件。

只要发件人地址里包含“spam”，就判断为垃圾邮件。

只要正文里出现“中奖”“优惠”“立刻领取”，就提高垃圾邮件概率。

这种方法一开始似乎有效，但很快就会遇到问题。

正常邮件里也可能出现“免费讲座”。垃圾邮件也可能故意写成“免-费”“福利”“惊喜”，绕开关键词规则。你不断添加规则，对方不断变化套路，系统越来越复杂，却仍然很脆弱。

机器学习的思路不一样。

你不再手写所有规则，而是给机器大量已经标注好的邮件：哪些是垃圾邮件，哪些是正常邮件。机器会从这些样本中统计规律，比如哪些词更常出现在垃圾邮件中，哪些结构更可疑，哪些发件行为更异常。

最后，机器形成一套自己的判断方式。

这套从数据中学出来的规律，就是模型。

通俗地说，模型就是机器从数据里总结出来的经验。

这和规则式 AI 的差别非常大。

规则式 AI 是人告诉机器怎么做。

机器学习是机器从样本中自己学会怎么判断。

这就是 AI 历史上第一次真正重要的范式转向：从规则到学习。

当然，机器学习也不是万能的。

传统机器学习往往需要人类先设计特征。比如识别一封邮件是不是垃圾邮件，人类要提前告诉机器关注哪些词、哪些字段、哪些统计指标。机器虽然可以学习，但学习的基础仍然很依赖人类设计。

在一些结构化任务里，这已经很好用。但当 AI 开始处理图像、语音、自然语言这类复杂数据时，传统机器学习就不够了。

因为现实世界中的复杂特征太多了。

一张图片里，有边缘、颜色、纹理、形状、空间关系。一个句子里，有词义、语法、上下文、语气、隐含信息。让人类手工设计这些特征，仍然很难。

于是，AI 继续往前走，进入了深度学习时代。

年代突然变强了

很长一段时间里，神经网络都像一条被低估的路线。

它的想法很诱人：既然人脑是由大量神经元连接形成智能，那么机器能不能也通过多层神经网络来学习？

但在很长时间里，这个想法受限于算力、数据和训练方法，始终没有真正爆发。

直到 2010 年代，条件终于凑齐了。

互联网带来了海量数据。
GPU 等计算硬件提供了更强算力。
神经网络训练方法不断成熟。
深度学习模型在图像、语音等任务上开始展现压倒性优势。

2012 年，AlexNet 在 ImageNet 图像识别竞赛中取得突破性成绩，被很多人视为深度学习革命的重要起点。

这件事的意义，不只是一个比赛赢了，而是它向整个行业证明了一件事：大数据 + 大算力 + 深层神经网络，真的可以解决复杂感知问题。

我们仍然用识别猫这个例子。

在规则式 AI 里，你要手写猫的特征：耳朵、胡须、尾巴、形状。

在传统机器学习里，你可能要先设计图像特征，再让模型学习。

但在深度学习里，模型可以从大量图片中自动学习多层次特征。

底层网络可能学习边缘和线条。

中层网络可能学习纹理和局部结构。

高层网络可能学习耳朵、眼睛、脸部轮廓。

最后，模型综合这些信息判断：这是一只猫。

深度学习的强大之处就在这里：它不再完全依赖人类手工设计特征，而是可以从数据中自动学习复杂表示。

这让 AI 在图像识别、语音识别、机器翻译、推荐系统等领域快速突破。

2016 年，AlphaGo 战胜李世石，更是让 AI 走出技术圈，进入大众视野。

围棋曾被认为是机器很难攻克的领域，因为它的可能性太多，局面判断高度复杂。AlphaGo 的胜利让很多人意识到：AI 不只是能算得快，它还可能在复杂策略问题中发现人类未曾总结出的规律。

但深度学习虽然强大，也有自己的问题。

它需要大量数据，需要强大算力，模型内部也很难解释。更重要的是，在语言理解方面，早期深度学习模型仍然存在瓶颈。

要真正进入今天的大模型时代，还需要一个关键架构出现。

Transformer：大模型时代真正的地基

如果把今天的大模型比作一栋高楼，那么 Transformer 就是这栋楼最重要的地基之一。

它的出现，解决了过去很多模型在处理语言时的关键问题：上下文理解不够好，长文本容易遗忘，训练效率不够高。

在 Transformer 之前，处理语言任务常用的模型包括 RNN、LSTM、CNN 等。它们各有价值，但也各有局限。

RNN 像一个认真读书但容易健忘的人。它按顺序一个词一个词读，前面的信息会随着句子变长逐渐变弱。

CNN 更像一个擅长捕捉局部特征的人。它能看到相邻词之间的关系，但对全局语义理解不够自然。

语言最麻烦的地方在于，一个词的意思常常取决于上下文。

比如“银行”这个词，在“我去银行办卡”和“河流冲刷着银行”里，含义完全不同。机器不能只看这个词本身，还要看它和周围词之间的关系。

再比如这句话：“我把苹果放进包里，因为它太重了。”

这里的“它”到底指苹果还是包，要看上下文。如果模型不能抓住词与词之间的关系，就很容易误解。

Transformer 的核心能力，就是让模型在理解一个词时，可以同时关注句子里其他相关词。它不是孤立地看每个词，而是判断哪些信息更重要。

这就是注意力机制。

注意力机制听起来复杂，但可以先粗略理解成：模型在读一句话时，会学会抓重点。

而 Transformer 的另一大优势，是更适合并行训练。过去很多模型处理语言时必须按顺序一步步来，而 Transformer 可以更高效地处理大规模文本。这让模型越做越大、数据越训越多变得现实。

2017 年，Transformer 架构提出。此后，BERT、GPT 等一系列大语言模型都建立在这个基础之上。

所以，Transformer 的意义不只是某个技术细节的改进，而是为大模型时代提供了底层架构。

如果说深度学习让 AI 开始更好地“看见”和“听见”，那么 Transformer 让 AI 开始更好地“理解上下文”。

有了这个地基，AI 很快进入了一个新的阶段。

大模型爆发：AI 第一次真正走向大众

大模型真正让普通人感到震撼，并不是因为它第一次出现在论文里，而是因为它第一次以一种极其简单的方式出现在所有人面前：

聊天。

你不需要懂代码，不需要懂算法，也不需要知道模型背后的结构。你只需要输入一句话，它就能回答你、帮你写、帮你改、帮你解释、帮你生成。

这件事的意义非常大。

过去很多 AI 系统虽然强大，但使用门槛很高。普通人很难直接感受到它的能力。

而对话式大模型改变了这一点。

你可以让它写一封邮件。

可以让它解释一个陌生概念。

可以让它把一段专业内容改成小白能看懂的版本。

可以让它帮你整理会议纪要。

可以让它写代码、改文案、列计划、做分析。

它不再像过去很多 AI 系统一样，只能在某个单一任务中工作，而是呈现出更强的通用性。

为什么大模型会有这样的能力？

一个重要原因是预训练。

过去很多模型是为某个具体任务训练的，比如只做情感分类，只做翻译，只做图像识别。而大模型会先在海量文本上进行预训练，学习语言结构、知识关联、表达方式和世界常识。

你可以把它理解成：模型先广泛“读世界”。

读完之后，再通过指令微调、对齐训练等方式，让它学会更好地理解人类指令，以更符合人类偏好的方式回答问题。

所以，大模型的爆发，不只是因为参数变多了。

它背后同时有几个变化：更大的数据规模、更强的算力基础、更适合扩展的模型架构、更成熟的训练方法，以及更低门槛的交互方式。

其中，交互方式尤其重要。

自然语言本身就是人类最熟悉的界面。过去我们要学习软件按钮、命令行、菜单和复杂操作。现在很多任务可以直接用一句话发起。

这让 AI 第一次真正变成了大众工具。

所以我觉得，大模型的历史意义，不只是模型能力更强，而是：

普通人第一次可以用自然语言直接调用复杂 AI 能力。

这也是为什么 ChatGPT 这类产品出现后，AI 热潮会迅速扩散到教育、办公、编程、设计、营销、咨询、科研等各个领域。

但当 AI 会聊天、会写作、会生成图片之后，一个新的问题出现了：

它能不能不只是回答，而是真的替我们完成任务？

这个问题，正在推动 AI 进入下一个阶段。

AI 的下半场：从会回答到会行动

如果说前几年 AI 给人的最大震撼是“它竟然会说、会写、会画”，那么接下来更重要的问题可能是：

它能不能真正做事？

也就是说，AI 能不能理解目标、拆解步骤、调用工具、检查结果，并在遇到问题时自己调整？

这就是今天很多人讨论智能体的原因。

我们可以用旅行规划来理解“会回答”和“会行动”的区别。

普通聊天式 AI 面对“帮我规划一次旅行”这个问题，可能会给你一份文字建议：去哪几天、看哪些景点、住在哪里、吃什么。

这已经很有用。

但智能体式 AI 的目标不只是给建议，而是进一步完成流程。

它可能会根据你的预算、时间、偏好，搜索信息，比较路线，整理酒店选择，生成行程表，计算预算，提醒你准备证件，甚至调用日历、地图、订票工具，把一个模糊目标拆成一连串可执行步骤。

这就是从“回答问题”到“完成任务”的变化。

当然，今天的智能体还远不是完美的。

它会出错，会误解任务，也会在复杂流程中出现不稳定。尤其当任务涉及真实工具、真实数据、真实权限和真实成本时，可靠性就变得非常关键。

但方向已经很清楚：AI 正在从一个回答问题的工具，变成一个可以参与工作流的系统。

除了智能体，今天 AI 还有几个明显趋势。

AI 正在从文本走向多模态过去模型主要处理文字，现在它越来越多地理解图片、音频、视频、表格、文档和代码。人类理解世界本来就是多模态的，AI 也正在朝这个方向靠近。
AI 正在强化推理能力过去很多模型擅长生成流畅回答，但复杂推理、长链路分析、多步骤任务仍然容易出错。现在，推理能力成为模型竞争的重要方向。
AI 正在更深地进入行业企业不再只问“模型有多强”，而是更关心它能不能稳定落地，能不能接入业务流程，能不能降低成本，能不能保证权限、安全、可控和可评估。
AI 正在向物理世界延展

当模型不只理解文字和图像，还能连接机器人、自动驾驶、工业设备和传感器时，AI 就不再只是数字世界里的助手，而可能成为物理世界中的行动系统。

所以，AI 的下半场，可能不再只是“生成内容”，而是“完成任务”。

这也是今天这一轮 AI 热潮和过去很多技术热潮不同的地方。

过去的 AI 更多是在单点任务里提高效率。今天的 AI 则开始尝试进入更复杂的工作流，成为一个连接信息、工具和行动的中间层。

但越是这样，我们越需要保持清醒。

AI 不是魔法。它仍然会犯错，仍然需要评估，仍然需要人类定义目标、设置边界、监督结果。

真正成熟的 AI 应用，不是让机器完全取代人，而是让人和机器形成新的协作关系。

回头看，AI发展史真正告诉我们什么？

如果把人工智能这 70 多年的历史拉长来看，我们会发现，它并不是一条平滑上升的曲线。

它更像一条不断试错、不断转向、不断突破边界的路线。

每一次繁荣，都是因为人们找到了一种新的方法。每一次寒冬，都是因为这种方法碰到了自己的边界。

早期人们以为，只要写足够多的规则，机器就能变聪明。

但后来发现，现实世界的规则根本写不完。

于是 AI 开始转向从数据中学习。

人们以为，机器能从数据中学习就已经足够强大。

但后来发现，传统机器学习仍然依赖大量人工特征。

于是深度学习开始崛起。

人们以为，深度学习已经让 AI 足够强。

但后来发现，要理解语言、处理上下文、走向通用能力，还需要更适合规模化的架构。

于是 Transformer 和大模型出现了。

人们以为，AI 会聊天、会写作、会生成内容已经足够震撼。

但今天我们又发现，真正重要的下一步，是让 AI 进入任务、工具和工作流。

于是智能体、多模态、推理模型开始成为新的方向。

这就是 AI 发展史最有意思的地方：它不是某个单一技术突然改变世界，而是一代代方法不断解决上一代问题，同时又暴露出新的问题。

从规则到学习，是方法的变化。

从单点模型到大模型，是能力边界的变化。

从专业系统到大众工具，是使用门槛的变化。

从生成内容到完成任务，是应用形态的变化。

所以，理解人工智能发展史，不只是为了知道过去发生了什么。

更重要的是，它能帮助我们看懂今天的 AI 热潮：哪些是真正的范式变化，哪些只是阶段性的产品热闹。

对我来说，复盘 AI 的历史，其实也是在提醒自己：面对新技术，既不要盲目神化，也不要轻易低估。

不要因为它会犯错，就否认它的长期价值。

也不要因为它很惊艳，就以为它已经无所不能。

真正值得关注的，永远是它解决了什么问题，又把我们带到了什么新的问题面前。

人工智能的历史，表面上看是一部技术演进史。

但更深一层看，它其实是人类不断追问“智能是什么”的历史。

我们试图把规则写进机器。

试图让机器从数据中学习。

试图让机器理解语言、识别图像、推理问题、调用工具。

也试图让机器从一个只会执行命令的工具，变成一个能参与协作的伙伴。

也许我们今天仍然离真正意义上的通用人工智能很远。

但至少可以确定的是，AI 已经不再只是实验室里的概念，也不再只是少数技术人员手里的工具。

它正在成为一种新的基础能力，进入工作、学习、创作、生产和行业流程之中。

理解它的历史，不是为了崇拜技术，而是为了在接下来的变化里，少一点盲目，多一点判断。

最近两年，大模型到底进化到了哪里？

如果说 2022 年前后，大模型给普通人的第一印象是“它终于会聊天了”，那么 2024 到 2026 年这段时间，大模型的变化已经不只是“回答更流畅”这么简单。

更准确地说，大模型正在从一个“语言生成器”，变成一个更复杂的智能系统：它开始会推理、会看图、会听声音、会处理长文档、会写代码、会调用工具，甚至开始尝试自己拆解任务、推进任务。

这一阶段，值得重点看五条线。

第一条线，是推理模型的兴起

早期大模型最擅长的是生成，它可以把一句话续写得很自然，也可以根据上下文写出一段看起来很完整的回答。但它在数学、逻辑、规划、代码调试这类任务上，经常会暴露问题：说得像真的，但推理链条并不稳定。

所以，从 2024 年后半段到 2025 年，行业开始明显转向“推理能力”。一些新一代模型不再追求立刻回答，而是允许模型在回答前进行更长时间的“思考”，用更多中间步骤处理复杂问题。到 2025 年，推理型模型已经成为前沿模型竞争的核心方向。比如某些模型会在数学、代码、科学问题和复杂视觉任务上进行更长链路的推理，同时还会判断什么时候需要调用工具。公开资料显示，2025 年推出的一些推理模型，已经把“更长时间思考”和“工具使用”结合起来，用来解决更复杂的问题。

这件事的意义在于，大模型不再只是“快速给一个答案”，而是开始往“先分析、再判断、最后回答”的方向演进。

你可以把早期大模型理解成一个反应很快、表达很好的人；而推理模型更像一个开始学会打草稿、做验算、拆步骤的人。它不一定永远正确，但它处理复杂任务的方式，已经和早期纯生成式模型不一样了。

第二条线，是国内开源推理模型的突然崛起

2025 年，大模型行业一个很重要的变化，是开源模型不再只是“闭源模型的低配替代”。一些开源模型在数学、代码、逻辑推理等能力上，开始接近甚至在部分测试中追平国际前沿模型。

其中，一个标志性变化是推理模型的开源化。以 DeepSeek-R1 及其后续更新为例，它把“深度思考”能力做成了公开可用的模型能力，并在 2025 年 5 月更新版本中进一步强化了数学、编程和通用逻辑推理。官方资料提到，新版本在 AIME 2025 测试中的准确率由旧版 70% 提升至 87.5%，并且增加了 Function Calling 和 JsonOutput 支持，模型权重继续采用 MIT License 开源。

这类模型的出现，改变了一个行业判断：大模型能力不再只由少数闭源旗舰模型定义。开源模型开始成为开发者、企业和研究者的重要选择。

这背后有两个影响。

一个是技术影响。开源推理模型让更多人能看到、研究和复用模型能力，推动了小模型蒸馏、行业模型定制、本地部署等方向的发展。

另一个是产业影响。企业在选择大模型时，不再只问“哪个模型最强”，而是会同时考虑能力、成本、部署方式、数据安全、是否可控、是否能长期迭代。

第三条线，是多模态成为标配

2023 年时，很多人对大模型的理解还停留在“文字聊天”。但到了 2024—2026 年，多模态已经从亮点能力变成了基础能力。

所谓多模态，就是模型不只处理文字，还能处理图片、音频、视频、表格、文档，甚至 3D 场景。更重要的是，它不是简单地把不同工具拼在一起，而是开始把不同类型的信息放到一个统一的理解框架里。

比如，你可以给模型一张图，让它解释图里发生了什么；可以给它一份长 PDF，让它提炼结构；可以给它一段会议录音，让它总结纪要；可以给它一张数据图表，让它分析趋势；还可以输入文字和图片，让它生成新的图片或视频。

这意味着，大模型正在从“理解语言”走向“理解世界的多种表达方式”。

2025 年前后的前沿模型，已经普遍把多模态能力作为重要方向。部分模型支持百万级上下文，部分模型强调文本、图像、音频、视频的统一处理，部分国内模型也开始强化视觉理解、长视频理解、文档解析和图像生成能力。

如果说大语言模型解决的是“机器能不能听懂人话”，那么多模态模型要解决的就是“机器能不能理解人类面对的真实信息环境”。

因为真实工作不是只有文字。

我们每天处理的是聊天记录、会议录音、产品截图、合同文件、报表、设计稿、视频、网页、代码仓库。未来的大模型如果要真正进入工作流，就必须理解这些混合信息，而不是只会处理一段纯文本。

第四条线，是长上下文能力变得越来越重要

早期使用大模型时，很多人都会遇到一个问题：一旦资料太长，模型就“看不完”；对话太久，模型就“记不住”；文档太复杂，模型就容易漏细节。

但真实工作里，很多问题恰恰不是一句话能说清楚的。

比如，做投研分析，要看几十页研报。

做法律审查，要看完整合同和补充协议。

做产品复盘，要看用户反馈、数据报表和历史版本。

做代码开发，要理解整个项目结构。

做企业知识问答，要读大量内部文档。

所以，长上下文能力成为大模型近两年的重点方向之一。

一些新模型开始支持更长的上下文窗口，从几十万 tokens 到百万级 tokens。这个变化看似只是“能塞进更多字”，但实际意义很大：模型可以在一次任务中处理更完整的资料，不再只依赖碎片化输入。

不过，长上下文并不等于真正理解。模型能“装下”更多内容，只是第一步；它还要能从长资料里抓重点、找关联、做推理、避免被无关信息干扰。这也是为什么长上下文常常要和检索增强生成、结构化知识库、智能体工作流一起使用。

第五条线，是模型开始向 Agent 化演进

最近一年多，一个很关键的变化是：大模型不再只是被动回答问题，而是开始具备“任务执行”的雏形。

过去，我们使用大模型的方式大多是这样的：

你问一句，它答一句。

你再补充一句，它再答一句。

你一步步指挥，它一步步响应。

这仍然是“人主导流程，AI 提供局部能力”。

但 Agent 化的大模型想做的是另一件事：你给它一个目标，它自己拆解任务、规划步骤、调用工具、检查结果，并在中途根据反馈调整。

比如你说：“帮我调研某个行业，并整理一份竞品分析报告。”

普通聊天模型可能会直接生成一份泛泛的报告。

Agent 化模型则会先理解任务目标，再拆成搜索资料、筛选来源、提取关键信息、对比竞品、生成结构化报告、检查遗漏等步骤。如果接入浏览器、数据库、表格、代码环境或企业内部系统，它还可以进一步执行具体动作。

2025 年之后，越来越多模型开始强调工具调用、函数调用、代码执行、长任务处理、软件工程 Agent、深度研究等能力。根据 2025 年 AI Index 报告，AI Agent 在短时间任务上已经显示出早期潜力，但在更长时间、更复杂任务中，人类专家仍然明显更强。这说明 Agent 方向很重要，但还没有完全成熟。

所以，Agent 化不是一个突然完成的结果，而是一个正在发生的过程。

它代表的是大模型从“内容生成工具”走向“任务执行系统”。

这也是为什么我认为，大模型接下来的竞争，不只是谁回答得更像人，而是谁更能稳定地完成真实任务。

如果把 2024—2026 的大模型变化压缩成一句话：

这一轮大模型更新，核心不是“又多了几个模型”，而是能力结构变了。

它从只会生成文本，走向了五个方向：

会推理。模型开始在回答前进行更长链路的思考，数学、代码、逻辑和规划能力成为重点。

会看懂多种信息。文本、图片、音频、视频、文档、表格开始被放进统一处理框架里。

能处理更长资料。长上下文让模型更适合文档分析、代码理解、知识库问答和复杂研究任务。

能调用工具。模型不再只靠记忆回答，而是可以调用搜索、代码、数据库、函数、插件等外部工具。

开始走向自主执行。Agent 化让模型从“回答问题”进一步走向“完成任务”。

这五个变化叠加在一起，才是最近大模型真正值得关注的地方。

很多人问：大模型是不是已经进入瓶颈了？

如果只看聊天体验，确实会觉得新鲜感在下降。因为从用户体感看，模型从“能写一段话”到“写得更好一点”，边际差异没那么震撼。

但如果从技术范式看，大模型并没有停止演进。它正在从“对话产品”变成“智能基础设施”。

早期大模型解决的是“人如何用自然语言调用 AI”。

现在的大模型正在解决的是“AI 如何进入真实任务流程”。

下一阶段要解决的，则是“AI 如何在复杂环境中稳定、可控、低成本地完成长期任务”。

这也是为什么，最近的大模型进展不能只看模型排行榜，而要看它是否真正进入了工作流。

一个模型写文章写得更好，当然有价值；

但一个模型能读完资料、拆解任务、调用工具、验证结果、持续迭代，价值会更大。

从这个角度看，大模型的发展重心正在发生变化：

从比拼参数规模，转向比拼推理效率。从比拼单次回答，转向比拼任务完成。从比拼通用聊天，转向比拼行业落地。从比拼模型本身，转向比拼模型、工具、数据、流程的协同能力。

这才是 2024—2026 年大模型真正的新阶段。