AI进化简史:从只会聊天到能替你干活,它经历了什么?
2022年底,ChatGPT横空出世,全世界都在跟它聊天。你能问它问题,它能给你写首诗、编段代码、讲个笑话。但也就仅此而已了。
它知道世界上几乎所有知识,却连一封邮件都发不出去。
四年过去,同样是那个底层技术路线,现在的 AI 能帮你写代码、订机票、发邮件、自动操作浏览器完成一整套流程,甚至能 24 小时不间断地帮你盯盘、写报告、做调研。
同一个技术,怎么变了个人?
这篇文章带你走一遍 AI 进化的关键节点,搞清楚它是怎么从”只会聊天”进化到”能替你干活”的。
第一阶段:AI学会了说话
一切要从 Transformer 架构说起。
2017年,Google 发表了一篇论文叫 Attention Is All You Need。这篇论文的标题已经说明了一切——它抛弃了之前处理文本的主流架构,用一种叫 自注意力(Self-Attention) 的机制重新定义了语言建模。
简单说,这个架构让模型在理解一句话的时候,不再是从左到右一个字一个字读,而是同时看到整句话里所有词之间的关系。”我喜欢吃苹果”里的”苹果”是水果还是手机,模型能根据上下文判断。
基于这个架构,后面发生了两件事:
预训练突破:GPT-3 在 2020 年发布,训练参数量达到了 1750 亿。这个数字在当时是个质变——模型大到一定程度后,涌现出了之前小模型不具备的能力,比如翻译、写代码、做数学题。它没有专门学过这些任务,但训练数据量足够大之后,它自己”悟”了。
对话微调:2022 年底的 ChatGPT 用了一种叫 RLHF(人类反馈强化学习)的技术。简单理解就是:让人类给模型的不同回答打分,模型根据这些反馈不断调整自己的说话方式。结果就是——它终于像个人类在跟你聊天了,而不是在背课文。
这个阶段的核心特征是:
AI 有了一个极其强大的大脑,但它被困在对话框里。
你给它什么输入,它给你什么输出,然后就没有然后了。它不能打开浏览器查资料,不能执行代码,不能操作任何软件。它知道怎么做,但它什么都做不了。
就像一个被关在房间里、无所不知却手脚被捆的天才。
第二阶段:AI有了眼睛和耳朵
光会聊天还不够。真实世界的信息不只是文字。
2023年开始,多模态模型集中爆发。GPT-4V、Gemini 这些模型开始能看懂图片、听懂语音,甚至理解视频内容。
这不仅仅是多了几个功能模块,而是让 AI 获取信息的方式从单一变成了多元。
举几个直观的例子:
-
你拍一张冰箱的照片发给它,它能告诉你里面有什么食材、还能做什么菜
-
你把一段会议录音丢给它,它能提取要点、生成会议纪要
-
你给它看一张复杂的图表,它能解读数据趋势
多模态解决了 “输入” 的问题。AI 终于可以像人一样,用多种方式感知世界了。
但它还是只能”看”和”说”,依然不能”做”。
就像一个人,眼睛和耳朵好使了,嘴也利索了,但还是坐在椅子上动不了。它看到你的冰箱空了,能告诉你该买什么,但没法帮你下单。
第三阶段:AI长出了手脚
真正的质变发生在 AI 学会了使用工具。
这一步的关键技术叫 Function Calling(函数调用),后来也叫 Tool Use。原理很简单:
不再让模型直接生成文字回复,而是让它在需要的时候,输出一个”调用某个函数”的请求。
比如说,模型判断你需要查天气,它不是凭记忆瞎编一个天气,而是输出一个类似这样的请求:
调用 weather_api(城市="北京")
然后由外部的程序去执行这个调用,拿到真实的天气数据,再把结果喂回给模型。模型拿到真实数据后,再生成回复。
这个机制看起来简单,但它是从”嘴炮”到”实干”的转折点。
因为一旦模型能调用工具,它就能做到:
-
搜索互联网获取实时信息,而不是靠过时的训练数据
-
执行代码,自己调试自己
-
操作数据库、调用 API、读写文件
-
甚至控制浏览器完成网页操作
第四阶段:Manus 和 AI Agent 元年的到来
如果 Tool Use 让 AI 长出了手脚,那 2024 到 2025 年的一系列事件,就是教会了 AI 怎么用手脚干活。
2024 年初,OpenAI 正式推出了 GPT-4 的 GPTs 功能,允许用户给 ChatGPT 挂载自定义工具和知识库。你可以让它”成为一个会用特定 API 的助手”。这是普通用户第一次低门槛地体验到”会干活的 AI”。
但真正的分水岭是 2025 年初 Manus 的发布。
Manus 的定位不是”另一个聊天机器人”,而是一个能自主完成端到端任务的通用 AI Agent。你给它一个模糊的目标,比如”帮我调研一下市场上最好的项目管理工具”,它会自动:
-
打开浏览器搜索相关信息
-
逐个打开候选产品的官网查看功能介绍
-
对比价格和评价
-
生成一份结构化的调研报告
-
保存为文档发给你
整个过程全程自主,不需要你在中间干预。
Manus 的横空出世在 AI 圈引发了一场地震。原因很简单——它证明了 AI Agent 不是实验室里的玩具,而是真的可以作为一个”数字员工”独立工作。从那之后,整个行业的风向彻底变了:
-
不再是”谁的模型更聪明”,而是”谁的 Agent 更能干”
-
创业公司不再做”又一个 ChatGPT wrapper”,而是做垂直领域的 Agent
-
开发者开始讨论”Agent 能替代多少人工流程”
Manus 的意义不在于它做了什么别人做不到的事,而在于它把 Agent 这个概念推到了大众面前。
第五阶段:开源生态爆发——OpenClaw、Hermes 与平民化
如果说 Manus 是 AI Agent 的”iPhone 时刻”,那开源社区的反应就是”安卓化”。
OpenClaw 作为开源 Agent 框架的代表,让普通开发者也能搭建自己的 AI Agent。它提供了一套标准化的架构——模型层、工具层、规划层、记忆层——开发者不需要从零开始,只需要根据自己的场景组装和扩展。
它的出现解决了一个核心问题:不是每个人都用得起 Manus,但每个人都值得拥有自己的 AI Agent。
而在 Agent 平台层面,Hermes 走了一条更底层的路——它不只是一个 Agent,而是一个多 Agent 协作的平台。它的核心理念是:复杂任务不该靠一个”全能 AI”硬扛,而应该拆解成子任务,分发给不同的专业 Agent 协作完成。
举个具体的例子:
你要写一份竞品分析报告。
传统的做法是一个 Agent 从头干到尾:搜索、阅读、分析、写报告。遇到复杂任务容易跑偏。
在 Hermes 的思路下,会有三个 Agent 分工协作:
研究员 Agent:负责搜索和收集信息
分析师 Agent:负责对比分析和提炼结论
写手 Agent:负责把分析结果写成报告
它们之间通过统一的消息协议通信,互相传递中间结果。
这种多 Agent 架构的优势很明显:每个 Agent 专注一件事,出错概率降低,而且可以随时替换或升级某个环节。
除此之外,2025 到 2026 年还涌现了大量 Agent 工具和框架:
-
Claude Computer Use:让 AI 直接操作电脑屏幕,像人一样点击、输入
-
AutoGPT / BabyAGI:早期开源 Agent 的演进,形成了更稳定的架构
-
LangGraph / CrewAI:面向开发者的 Agent 编排框架,支持多 Agent 工作流
-
各大厂的 Agent 平台:阿里云、字节、百度都推出了自己的 Agent 开发平台
AI Agent 已经从”少数人的玩具”变成了”开发者的基础设施”。
从 Chat 到 Agent,为什么是质变?
很多人觉得 Agent 没什么新鲜的——不就是加几个 API 接口吗?
但关键不在于技术本身,而在于权力关系的翻转。
在 ChatBot 时代,人是操作者,AI 是被操作的工具。你每一步都要想清楚该做什么、该问什么。
在 Agent 时代,人变成了”发号施令”的一方,AI 变成了执行者。你告诉它要什么结果,中间的过程它自己搞定。
这听起来理所当然,但在技术实现上,这需要模型具备三种能力同时在线:
-
理解意图:知道用户真正想要什么,而不是只听字面意思
-
规划路径:把一个模糊的目标拆解成可执行的步骤
-
自我纠错:执行过程中发现走错了,能自己调整,而不是继续错下去
这三个能力缺一不可。只有理解了意图,才能规划出正确的路径;只有能自我纠错,才敢让它在无人监督的情况下独立运行。
为了方便理解,我把 ChatBot 和 Agent 做了一张对比表:
| ChatBot | Agent | |
|---|---|---|
| 工作方式 | 一问一答 | 自主规划、分步执行 |
| 能力边界 | 只能对话 | 可以调用工具、操作外部系统 |
| 交互模式 | 每次都需要人推动 | 给个目标,它自己跑 |
| 典型场景 | 问答、写作、翻译 | 自动化流程、复杂任务执行 |
| 对人的要求 | 需要你一步步引导 | 你只需要说清楚要什么 |
AI Agent 现在到什么程度了?
截至 2026 年,AI Agent 已经在很多场景落地了:
-
编程:Cursor、Devin 这类工具可以帮你写整个项目,从需求到部署一条龙
-
客服:不只是自动回复,能真正查询订单、处理退款、升级工单
-
数据分析:给它一个数据集,自己分析、出图表、写报告
-
办公自动化:自动整理邮件、安排会议、生成文档
-
个人助手:帮你做调研、比价、写报告、做 PPT
-
企业流程:自动化审批、数据汇总、报告生成
但别过度乐观。当前的 Agent 有几个明显的局限:
可靠性还是不够。 复杂任务链路越长,出错概率越高。一个步骤出错可能导致后续全偏。比如 Agent 在搜索时用错了关键词,后面基于这个错误信息做的所有分析就都歪了。
成本不低。 一次完整的 Agent 任务可能需要模型调用十几次甚至几十次,每次调用都在烧钱。对于个人用户来说还能接受,但对于高频企业场景,成本压力很大。
安全边界模糊。 让 AI 自主操作系统,万一它做了一件不该做的事呢?删了重要文件、发了不该发的邮件、调用了不该调的 API——这些都是真实发生过的事故。
多 Agent 协作的复杂度。 听起来很美,但多个 Agent 互相通信时,如何保证信息不丢失、不冲突?如何避免死循环?这些工程问题远比单 Agent 复杂。
所以更准确的说法是:Agent 不是已经完美了,而是方向已经明确,剩下的都是工程问题。
写在最后
回看 AI 这几年的进化路线,其实非常清晰:
2017 — Transformer 架构奠基,AI 有了大脑的雏形
2020 — GPT-3 预训练突破,AI 开始”无所不知”
2022 — ChatGPT 对话微调,AI 学会了像人一样聊天
2023 — 多模态爆发,AI 有了眼睛和耳朵
2024 — Tool Use 普及,AI 开始调用工具
2025 — Manus 引爆 Agent 元年,AI 能自主完成端到端任务
2026 — 开源生态成熟,Agent 成为开发者的基础设施
先是有了大脑(语言模型),能理解、能表达;
然后有了感官(多模态),能看、能听;
现在有了手脚(Agent),能操作、能执行;
未来还会有更多 Agent 互相协作,形成一个数字团队。
这不是线性升级,而是维度叠加。每一层都在扩大 AI 的能力边界。
你觉得现在的 AI Agent 靠谱吗?有没有实际用过的场景?欢迎留言聊聊。
夜雨聆风