AI进化简史:从只会聊天到能替你干活,它经历了什么?-夜雨聆风

AI进化简史:从只会聊天到能替你干活,它经历了什么?

2022年底，ChatGPT横空出世，全世界都在跟它聊天。你能问它问题，它能给你写首诗、编段代码、讲个笑话。但也就仅此而已了。

它知道世界上几乎所有知识，却连一封邮件都发不出去。

四年过去，同样是那个底层技术路线，现在的 AI 能帮你写代码、订机票、发邮件、自动操作浏览器完成一整套流程，甚至能 24 小时不间断地帮你盯盘、写报告、做调研。

同一个技术，怎么变了个人？

这篇文章带你走一遍 AI 进化的关键节点，搞清楚它是怎么从”只会聊天”进化到”能替你干活”的。

第一阶段：AI学会了说话

一切要从 Transformer 架构说起。

2017年，Google 发表了一篇论文叫 Attention Is All You Need。这篇论文的标题已经说明了一切——它抛弃了之前处理文本的主流架构，用一种叫 自注意力（Self-Attention） 的机制重新定义了语言建模。

简单说，这个架构让模型在理解一句话的时候，不再是从左到右一个字一个字读，而是同时看到整句话里所有词之间的关系。”我喜欢吃苹果”里的”苹果”是水果还是手机，模型能根据上下文判断。

基于这个架构，后面发生了两件事：

预训练突破：GPT-3 在 2020 年发布，训练参数量达到了 1750 亿。这个数字在当时是个质变——模型大到一定程度后，涌现出了之前小模型不具备的能力，比如翻译、写代码、做数学题。它没有专门学过这些任务，但训练数据量足够大之后，它自己”悟”了。

对话微调：2022 年底的 ChatGPT 用了一种叫 RLHF（人类反馈强化学习）的技术。简单理解就是：让人类给模型的不同回答打分，模型根据这些反馈不断调整自己的说话方式。结果就是——它终于像个人类在跟你聊天了，而不是在背课文。

这个阶段的核心特征是：

AI 有了一个极其强大的大脑，但它被困在对话框里。

你给它什么输入，它给你什么输出，然后就没有然后了。它不能打开浏览器查资料，不能执行代码，不能操作任何软件。它知道怎么做，但它什么都做不了。

就像一个被关在房间里、无所不知却手脚被捆的天才。

第二阶段：AI有了眼睛和耳朵

光会聊天还不够。真实世界的信息不只是文字。

2023年开始，多模态模型集中爆发。GPT-4V、Gemini 这些模型开始能看懂图片、听懂语音，甚至理解视频内容。

这不仅仅是多了几个功能模块，而是让 AI 获取信息的方式从单一变成了多元。

举几个直观的例子：

你拍一张冰箱的照片发给它，它能告诉你里面有什么食材、还能做什么菜
你把一段会议录音丢给它，它能提取要点、生成会议纪要
你给它看一张复杂的图表，它能解读数据趋势

多模态解决了 “输入” 的问题。AI 终于可以像人一样，用多种方式感知世界了。

但它还是只能”看”和”说”，依然不能”做”。

就像一个人，眼睛和耳朵好使了，嘴也利索了，但还是坐在椅子上动不了。它看到你的冰箱空了，能告诉你该买什么，但没法帮你下单。

第三阶段：AI长出了手脚

真正的质变发生在 AI 学会了使用工具。

这一步的关键技术叫 Function Calling（函数调用），后来也叫 Tool Use。原理很简单：

不再让模型直接生成文字回复，而是让它在需要的时候，输出一个”调用某个函数”的请求。

比如说，模型判断你需要查天气，它不是凭记忆瞎编一个天气，而是输出一个类似这样的请求：

调用 weather_api(城市="北京")

然后由外部的程序去执行这个调用，拿到真实的天气数据，再把结果喂回给模型。模型拿到真实数据后，再生成回复。

这个机制看起来简单，但它是从”嘴炮”到”实干”的转折点。

因为一旦模型能调用工具，它就能做到：

搜索互联网获取实时信息，而不是靠过时的训练数据
执行代码，自己调试自己
操作数据库、调用 API、读写文件
甚至控制浏览器完成网页操作

第四阶段：Manus 和 AI Agent 元年的到来

如果 Tool Use 让 AI 长出了手脚，那 2024 到 2025 年的一系列事件，就是教会了 AI 怎么用手脚干活。

2024 年初，OpenAI 正式推出了 GPT-4 的 GPTs 功能，允许用户给 ChatGPT 挂载自定义工具和知识库。你可以让它”成为一个会用特定 API 的助手”。这是普通用户第一次低门槛地体验到”会干活的 AI”。

但真正的分水岭是 2025 年初 Manus 的发布。

Manus 的定位不是”另一个聊天机器人”，而是一个能自主完成端到端任务的通用 AI Agent。你给它一个模糊的目标，比如”帮我调研一下市场上最好的项目管理工具”，它会自动：

打开浏览器搜索相关信息
逐个打开候选产品的官网查看功能介绍
对比价格和评价
生成一份结构化的调研报告
保存为文档发给你

整个过程全程自主，不需要你在中间干预。

Manus 的横空出世在 AI 圈引发了一场地震。原因很简单——它证明了 AI Agent 不是实验室里的玩具，而是真的可以作为一个”数字员工”独立工作。从那之后，整个行业的风向彻底变了：

不再是”谁的模型更聪明”，而是”谁的 Agent 更能干”
创业公司不再做”又一个 ChatGPT wrapper”，而是做垂直领域的 Agent
开发者开始讨论”Agent 能替代多少人工流程”

Manus 的意义不在于它做了什么别人做不到的事，而在于它把 Agent 这个概念推到了大众面前。

第五阶段：开源生态爆发——OpenClaw、Hermes 与平民化

如果说 Manus 是 AI Agent 的”iPhone 时刻”，那开源社区的反应就是”安卓化”。

OpenClaw 作为开源 Agent 框架的代表，让普通开发者也能搭建自己的 AI Agent。它提供了一套标准化的架构——模型层、工具层、规划层、记忆层——开发者不需要从零开始，只需要根据自己的场景组装和扩展。

它的出现解决了一个核心问题：不是每个人都用得起 Manus，但每个人都值得拥有自己的 AI Agent。

而在 Agent 平台层面，Hermes 走了一条更底层的路——它不只是一个 Agent，而是一个多 Agent 协作的平台。它的核心理念是：复杂任务不该靠一个”全能 AI”硬扛，而应该拆解成子任务，分发给不同的专业 Agent 协作完成。

举个具体的例子：

你要写一份竞品分析报告。

传统的做法是一个 Agent 从头干到尾：搜索、阅读、分析、写报告。遇到复杂任务容易跑偏。

在 Hermes 的思路下，会有三个 Agent 分工协作：

研究员 Agent：负责搜索和收集信息

分析师 Agent：负责对比分析和提炼结论

写手 Agent：负责把分析结果写成报告

它们之间通过统一的消息协议通信，互相传递中间结果。

这种多 Agent 架构的优势很明显：每个 Agent 专注一件事，出错概率降低，而且可以随时替换或升级某个环节。

除此之外，2025 到 2026 年还涌现了大量 Agent 工具和框架：

Claude Computer Use：让 AI 直接操作电脑屏幕，像人一样点击、输入
AutoGPT / BabyAGI：早期开源 Agent 的演进，形成了更稳定的架构
LangGraph / CrewAI：面向开发者的 Agent 编排框架，支持多 Agent 工作流
各大厂的 Agent 平台：阿里云、字节、百度都推出了自己的 Agent 开发平台

AI Agent 已经从”少数人的玩具”变成了”开发者的基础设施”。

从 Chat 到 Agent，为什么是质变？

很多人觉得 Agent 没什么新鲜的——不就是加几个 API 接口吗？

但关键不在于技术本身，而在于权力关系的翻转。

在 ChatBot 时代，人是操作者，AI 是被操作的工具。你每一步都要想清楚该做什么、该问什么。

在 Agent 时代，人变成了”发号施令”的一方，AI 变成了执行者。你告诉它要什么结果，中间的过程它自己搞定。

这听起来理所当然，但在技术实现上，这需要模型具备三种能力同时在线：

理解意图：知道用户真正想要什么，而不是只听字面意思
规划路径：把一个模糊的目标拆解成可执行的步骤
自我纠错：执行过程中发现走错了，能自己调整，而不是继续错下去

这三个能力缺一不可。只有理解了意图，才能规划出正确的路径；只有能自我纠错，才敢让它在无人监督的情况下独立运行。

为了方便理解，我把 ChatBot 和 Agent 做了一张对比表：

	ChatBot	Agent
工作方式	一问一答	自主规划、分步执行
能力边界	只能对话	可以调用工具、操作外部系统
交互模式	每次都需要人推动	给个目标，它自己跑
典型场景	问答、写作、翻译	自动化流程、复杂任务执行
对人的要求	需要你一步步引导	你只需要说清楚要什么

AI Agent 现在到什么程度了？

截至 2026 年，AI Agent 已经在很多场景落地了：

编程：Cursor、Devin 这类工具可以帮你写整个项目，从需求到部署一条龙
客服：不只是自动回复，能真正查询订单、处理退款、升级工单
数据分析：给它一个数据集，自己分析、出图表、写报告
办公自动化：自动整理邮件、安排会议、生成文档
个人助手：帮你做调研、比价、写报告、做 PPT
企业流程：自动化审批、数据汇总、报告生成

但别过度乐观。当前的 Agent 有几个明显的局限：

可靠性还是不够。 复杂任务链路越长，出错概率越高。一个步骤出错可能导致后续全偏。比如 Agent 在搜索时用错了关键词，后面基于这个错误信息做的所有分析就都歪了。

成本不低。 一次完整的 Agent 任务可能需要模型调用十几次甚至几十次，每次调用都在烧钱。对于个人用户来说还能接受，但对于高频企业场景，成本压力很大。

安全边界模糊。 让 AI 自主操作系统，万一它做了一件不该做的事呢？删了重要文件、发了不该发的邮件、调用了不该调的 API——这些都是真实发生过的事故。

多 Agent 协作的复杂度。 听起来很美，但多个 Agent 互相通信时，如何保证信息不丢失、不冲突？如何避免死循环？这些工程问题远比单 Agent 复杂。

所以更准确的说法是：Agent 不是已经完美了，而是方向已经明确，剩下的都是工程问题。

写在最后

回看 AI 这几年的进化路线，其实非常清晰：

2017 — Transformer 架构奠基，AI 有了大脑的雏形

2020 — GPT-3 预训练突破，AI 开始”无所不知”

2022 — ChatGPT 对话微调，AI 学会了像人一样聊天

2023 — 多模态爆发，AI 有了眼睛和耳朵

2024 — Tool Use 普及，AI 开始调用工具

2025 — Manus 引爆 Agent 元年，AI 能自主完成端到端任务

2026 — 开源生态成熟，Agent 成为开发者的基础设施

先是有了大脑（语言模型），能理解、能表达；

然后有了感官（多模态），能看、能听；

现在有了手脚（Agent），能操作、能执行；

未来还会有更多 Agent 互相协作，形成一个数字团队。

这不是线性升级，而是维度叠加。每一层都在扩大 AI 的能力边界。

你觉得现在的 AI Agent 靠谱吗？有没有实际用过的场景？欢迎留言聊聊。