从"能聊天"到"能干活"——AI Agent 到底是个什么东西?
大白话聊 OpenClaw 系列(二)
上一篇我们说了,大语言模型是一个读遍互联网的"超级学霸"——什么都知道,聊什么都行,但有一个致命的问题:它只能动嘴,不能动手。
今天我们来聊一个更有意思的话题:如果给这个学霸配上眼睛、双手和自主决策能力,会发生什么?

一个让你抓狂的场景
你跟 ChatGPT 说:"帮我订一张明天去上海的高铁票。"
ChatGPT 回你一大段:
"好的!你可以通过以下步骤订票:
打开 12306 网站或 App 选择出发地和目的地 选择日期 ……"
你心想:大哥,这些我都知道,我是想让你帮我订,不是让你教我怎么订。
但 ChatGPT 做不到。它没有"手"去操作 12306,没有"眼"去看网页上显示了什么,也没有"脑子"去自己决定"嗯,这班车还有票,价格也合适,帮你下单吧"。
这就是普通聊天机器人和 AI Agent 的根本区别。

聊天机器人 vs AI Agent:嘴和手的区别
让我用一个比方把这事说清楚。
聊天机器人就像一个坐在办公桌后面的超级顾问。你去找他咨询,他什么都懂,给的建议头头是道——但他永远不会站起来帮你跑腿。你问他"这个文件怎么填",他能逐行教你,但他不会帮你填。
AI Agent 不一样。它不只是坐在桌子后面的顾问,它是一个能站起来、走出去、亲自帮你办事的助手。你说"帮我查一下明天北京的天气",它不是告诉你去哪个网站查,而是自己打开浏览器,自己搜索,拿到结果,然后告诉你"明天北京晴,最高 26 度,适合穿短袖"。
一个只有"嘴",一个有"嘴"也有"手"。

Agent 的三个核心能力
那到底怎么把一个只会说话的 AI 变成一个能干活的 Agent 呢?
你需要给它三样东西。我喜欢用"人"来类比——
1. 感知(Perception)——给它"眼睛和耳朵"
一个人要做事,首先得知道周围在发生什么。
对 AI Agent 来说,"感知"就是接收信息的能力。这些信息可以从很多地方来:
你在 Telegram 上发了一条消息 → 它"听到"了 你往一个文件夹里丢了一张图片 → 它"看到"了 一个网页的内容更新了 → 它"注意到"了 到了早上 9 点 → 它"感知到"时间了
没有感知能力的 AI,就像一个被关在黑屋子里的天才——再聪明也不知道外面发生了什么。
2. 思考(Reasoning)——大脑还是那个大脑
思考这部分,用的就是我们上一篇讲的大语言模型。
不过在 Agent 的语境里,"思考"比单纯的"回答问题"要复杂得多。它需要:
理解意图:用户说"帮我把这个文件发给小王",它需要搞清楚"这个文件"是哪个文件,"小王"是谁 制定计划:我应该先找到文件,然后找到小王的联系方式,然后发过去 做出判断:文件太大了发不了怎么办?先压缩一下?还是用网盘链接? 处理意外:发送失败了怎么办?重试一次?还是换个方式告诉用户?
这就像一个真正的助手在做事——不是机械地执行命令,而是理解目标、拆解步骤、灵活应对。
3. 行动(Action)——给它"双手"
最关键的一步:让 AI 能够真正操作外部世界。
这就是所谓的工具调用(Tool Use)。
你可以把 Agent 的工具想象成一把瑞士军刀——上面有很多不同的工具,每个工具解决一个特定的问题:
🔧 搜索工具:能上网搜东西 🔧 浏览器工具:能打开网页、点按钮、填表格 🔧 命令行工具:能在电脑上执行操作(创建文件、运行程序……) 🔧 消息工具:能主动给别人发消息 🔧 天气工具、日历工具、邮件工具……各种专门的工具
当 Agent 收到你的请求后,它的"大脑"会思考:"要完成这个任务,我需要用哪个工具?"然后它自己决定调用哪个工具,拿到结果,再决定下一步怎么做。
这个"思考→选工具→用工具→看结果→再思考"的循环,就是 Agent 工作的核心模式。
用一个真实的例子走一遍
让我们用一个具体的例子,感受一下 Agent 和普通聊天机器人的区别。
你说:"帮我看看明天有没有适合跑步的天气,如果适合的话,帮我设一个早上 7 点的闹钟。"
普通聊天机器人的反应:
"你可以打开天气 App 查看明天的天气预报,如果天气适合跑步(比如不下雨、温度适宜),你可以在手机的时钟 App 中设置一个早上 7 点的闹钟。"
它给了你一个完美的"说明书"。但你得自己去干。
AI Agent 的反应:
思考:用户想知道明天天气,还要根据结果决定是否设闹钟。我得先查天气。 行动:调用天气工具 → 拿到结果:明天晴,18°C,微风。 思考:晴天、18 度、微风,很适合跑步。用户说了"如果适合就设闹钟",那我设闹钟。 行动:调用日历/闹钟工具 → 设定明天早上 7 点的闹钟。 回复:"明天天气不错——晴天,18°C,微风,很适合跑步!我已经帮你设好了明天早上 7 点的闹钟 ⏰"
看到区别了吗?Agent 不只是"回答"了你的问题,它真的做了事。而且在这个过程中,它自己做了判断(天气适不适合跑步)和决策(那就设闹钟)。
一个关键概念:API——软件之间怎么"说话"
在继续往下聊之前,我们得弄清楚一个会反复出现的概念:API。
你去餐厅吃饭,不需要走进厨房自己炒菜。你只需要:看菜单、点菜、服务员把菜端上来。
API 就是软件世界的"点单窗口"。
菜单 = API 文档(告诉你有哪些功能可以用) 点菜 = 发送请求(告诉对方你要什么) 上菜 = 返回结果(对方把你要的东西给你)
当 Agent 想"查天气"的时候,它不是自己去观测气象卫星。它是通过天气服务的 API 去"点单"——"给我一下北京明天的天气数据",天气服务就把数据"端上来"。
当 Agent 想调用大语言模型来"思考"的时候,它也是通过 OpenAI 或其他模型厂商的 API 去"点单"——"请根据这段对话,给我一个回答",模型就把回答"端上来"。
API 是整个 Agent 系统的"血管"——连通了 Agent 和它所有工具、所有服务。 后面的文章里,这个概念会反复出现,现在先有个印象就好。
Agent 不是新概念,但这一波不一样
说到这你可能会问:让程序自动做事,这不是很早就有了吗?比如定时备份文件、自动发邮件——这些不也是"自动化"吗?
没错。但传统的自动化和 AI Agent 有一个本质区别:
传统自动化是"按剧本演出"——步骤是人写死的,遇到意外就卡住。
比如一个自动发邮件的脚本,你告诉它"每天 9 点给小王发一封汇报邮件"。但如果小王离职了、邮箱地址变了、汇报内容需要调整——它不会自己处理,它会继续傻乎乎地往旧地址发旧内容。
AI Agent 是"目标驱动"——你告诉它目标是什么,它自己想办法达到。
你告诉 Agent"每天早上帮我整理一下今天的待办事项,然后发给我"。如果你的待办清单在 Notion 上,它会去 Notion 上看;如果你换成了飞书文档,它也能适应。如果某天你的待办特别多,它可能还会帮你按优先级排一下。
区别在于:传统自动化执行步骤,AI Agent 理解目标。
Agent 的工作循环:感知→思考→行动→观察
让我们把 Agent 的工作方式总结成一个简洁的循环:
┌──────────┐ │ 感知 │ ← 接收用户消息、环境变化 └────┬─────┘ ↓ ┌──────────┐ │ 思考 │ ← 大语言模型分析、规划 └────┬─────┘ ↓ ┌──────────┐ │ 行动 │ ← 调用工具,执行操作 └────┬─────┘ ↓ ┌──────────┐ │ 观察 │ ← 看到行动的结果 └────┬─────┘ ↓ (回到"思考",决定是否需要继续行动)注意这里的关键:不是一轮就结束,而是可以循环多轮。
Agent 可能调用一个工具,拿到结果后发现"不够,还需要再做一步",于是再调一个工具。就像一个真正的助手在做事——查一下资料,发现还需要确认一个细节,再查一下,然后综合起来给你一个完整的回答。
这种"自主的多步骤执行"能力,是 AI Agent 和普通聊天机器人最本质的区别。
那 OpenClaw 在这里扮演什么角色?
好,我们铺垫了两篇,是时候引出主角了。
OpenClaw 是什么?它是一个 AI Agent 的"底座"和"运行平台"。
再用一个比方来说:
大语言模型(GPT、Claude、Gemini……)是 Agent 的"大脑" 各种工具(搜索、浏览器、命令行……)是 Agent 的"双手" 而 OpenClaw 是 Agent 的"身体"和"神经系统"
它负责把这些东西组装到一起,让它们协调运转:
你从 Telegram 发来一条消息 → OpenClaw 接收它 消息需要交给哪个 Agent?→ OpenClaw 做路由分发 Agent 需要"思考"→ OpenClaw 调用大语言模型的 API Agent 决定要"动手"→ OpenClaw 帮它调用工具 结果出来了 → OpenClaw 把回复发回给你
没有大脑,Agent 不能思考。没有双手,Agent 不能行动。但没有 OpenClaw 这样的平台,大脑和双手连不到一起。
而且 OpenClaw 还有几个特别的地方:
它跑在你自己的设备上——你的数据不需要交给任何第三方 它连接你已经在用的聊天工具——不需要打开一个新的 App 它是开源的——代码公开,任何人都可以看、可以改 它是可扩展的——通过插件系统,你可以给它加上几乎任何能力
从下一篇开始,我们就要深入 OpenClaw 的内部,一个模块一个模块地看它到底是怎么运转的。
不过在那之前,还有一个重要的知识点需要铺垫——大模型的"水电煤":Token 到底怎么计费?API Key 是什么?市面上都有哪些大模型厂商?
这些"基础设施"问题,我们下一篇来搞定。
本篇小结
今天我们搞明白了几件事:
聊天机器人只有"嘴",AI Agent 有"嘴"也有"手"。 Agent = 大模型(思考)+ 工具(行动)+ 自主决策。 Agent 的三个核心能力:感知(接收信息)、思考(大模型推理)、行动(调用工具)。 Agent 的工作模式是一个循环:感知 → 思考 → 行动 → 观察 → 再思考……直到任务完成。 API 是软件之间的"点单窗口"——Agent 通过 API 调用工具和模型。 OpenClaw 是 Agent 的"身体"和"神经系统"——负责把大脑、双手和感官组装到一起,让它们协调运转。
一句话总结:AI Agent 就是一个"不只能聊,还能真正帮你干活"的 AI。而 OpenClaw,就是让这种 AI 跑起来的平台。
下一篇,我们来聊一个实际但重要的话题:大模型的"水电煤"——Token、API Key 和主流的大模型厂商。搞定了这些,你就拥有了理解后面所有内容的"基础设施"。
下一篇见 👋
夜雨聆风