大白话聊 OpenClaw 2:从＂能聊天＂到＂能干活＂

从"能聊天"到"能干活"——AI Agent 到底是个什么东西？

大白话聊 OpenClaw 系列（二）

上一篇我们说了，大语言模型是一个读遍互联网的"超级学霸"——什么都知道，聊什么都行，但有一个致命的问题：它只能动嘴，不能动手。

今天我们来聊一个更有意思的话题：如果给这个学霸配上眼睛、双手和自主决策能力，会发生什么？

一个让你抓狂的场景

你跟 ChatGPT 说："帮我订一张明天去上海的高铁票。"

ChatGPT 回你一大段：

"好的！你可以通过以下步骤订票：
打开 12306 网站或 App
选择出发地和目的地
选择日期
……"

你心想：大哥，这些我都知道，我是想让你帮我订，不是让你教我怎么订。

但 ChatGPT 做不到。它没有"手"去操作 12306，没有"眼"去看网页上显示了什么，也没有"脑子"去自己决定"嗯，这班车还有票，价格也合适，帮你下单吧"。

这就是普通聊天机器人和 AI Agent 的根本区别。

聊天机器人 vs AI Agent：嘴和手的区别

让我用一个比方把这事说清楚。

聊天机器人就像一个坐在办公桌后面的超级顾问。你去找他咨询，他什么都懂，给的建议头头是道——但他永远不会站起来帮你跑腿。你问他"这个文件怎么填"，他能逐行教你，但他不会帮你填。

AI Agent 不一样。它不只是坐在桌子后面的顾问，它是一个能站起来、走出去、亲自帮你办事的助手。你说"帮我查一下明天北京的天气"，它不是告诉你去哪个网站查，而是自己打开浏览器，自己搜索，拿到结果，然后告诉你"明天北京晴，最高 26 度，适合穿短袖"。

一个只有"嘴"，一个有"嘴"也有"手"。

Agent 的三个核心能力

那到底怎么把一个只会说话的 AI 变成一个能干活的 Agent 呢？

你需要给它三样东西。我喜欢用"人"来类比——

1. 感知（Perception）——给它"眼睛和耳朵"

一个人要做事，首先得知道周围在发生什么。

对 AI Agent 来说，"感知"就是接收信息的能力。这些信息可以从很多地方来：

你在 Telegram 上发了一条消息 → 它"听到"了
你往一个文件夹里丢了一张图片 → 它"看到"了
一个网页的内容更新了 → 它"注意到"了
到了早上 9 点 → 它"感知到"时间了

没有感知能力的 AI，就像一个被关在黑屋子里的天才——再聪明也不知道外面发生了什么。

2. 思考（Reasoning）——大脑还是那个大脑

思考这部分，用的就是我们上一篇讲的大语言模型。

不过在 Agent 的语境里，"思考"比单纯的"回答问题"要复杂得多。它需要：

理解意图：用户说"帮我把这个文件发给小王"，它需要搞清楚"这个文件"是哪个文件，"小王"是谁
制定计划：我应该先找到文件，然后找到小王的联系方式，然后发过去
做出判断：文件太大了发不了怎么办？先压缩一下？还是用网盘链接？
处理意外：发送失败了怎么办？重试一次？还是换个方式告诉用户？

这就像一个真正的助手在做事——不是机械地执行命令，而是理解目标、拆解步骤、灵活应对。

3. 行动（Action）——给它"双手"

最关键的一步：让 AI 能够真正操作外部世界。

这就是所谓的工具调用（Tool Use）。

你可以把 Agent 的工具想象成一把瑞士军刀——上面有很多不同的工具，每个工具解决一个特定的问题：

🔧 搜索工具：能上网搜东西
🔧 浏览器工具：能打开网页、点按钮、填表格
🔧 命令行工具：能在电脑上执行操作（创建文件、运行程序……）
🔧 消息工具：能主动给别人发消息
🔧 天气工具、日历工具、邮件工具……各种专门的工具

当 Agent 收到你的请求后，它的"大脑"会思考："要完成这个任务，我需要用哪个工具？"然后它自己决定调用哪个工具，拿到结果，再决定下一步怎么做。

这个"思考→选工具→用工具→看结果→再思考"的循环，就是 Agent 工作的核心模式。

用一个真实的例子走一遍

让我们用一个具体的例子，感受一下 Agent 和普通聊天机器人的区别。

你说："帮我看看明天有没有适合跑步的天气，如果适合的话，帮我设一个早上 7 点的闹钟。"

普通聊天机器人的反应：

"你可以打开天气 App 查看明天的天气预报，如果天气适合跑步（比如不下雨、温度适宜），你可以在手机的时钟 App 中设置一个早上 7 点的闹钟。"

它给了你一个完美的"说明书"。但你得自己去干。

AI Agent 的反应：

思考：用户想知道明天天气，还要根据结果决定是否设闹钟。我得先查天气。
行动：调用天气工具 → 拿到结果：明天晴，18°C，微风。
思考：晴天、18 度、微风，很适合跑步。用户说了"如果适合就设闹钟"，那我设闹钟。
行动：调用日历/闹钟工具 → 设定明天早上 7 点的闹钟。
回复："明天天气不错——晴天，18°C，微风，很适合跑步！我已经帮你设好了明天早上 7 点的闹钟 ⏰"

看到区别了吗？Agent 不只是"回答"了你的问题，它真的做了事。而且在这个过程中，它自己做了判断（天气适不适合跑步）和决策（那就设闹钟）。

一个关键概念：API——软件之间怎么"说话"

在继续往下聊之前，我们得弄清楚一个会反复出现的概念：API。

你去餐厅吃饭，不需要走进厨房自己炒菜。你只需要：看菜单、点菜、服务员把菜端上来。

API 就是软件世界的"点单窗口"。

菜单 = API 文档（告诉你有哪些功能可以用）
点菜 = 发送请求（告诉对方你要什么）
上菜 = 返回结果（对方把你要的东西给你）

当 Agent 想"查天气"的时候，它不是自己去观测气象卫星。它是通过天气服务的 API 去"点单"——"给我一下北京明天的天气数据"，天气服务就把数据"端上来"。

当 Agent 想调用大语言模型来"思考"的时候，它也是通过 OpenAI 或其他模型厂商的 API 去"点单"——"请根据这段对话，给我一个回答"，模型就把回答"端上来"。

API 是整个 Agent 系统的"血管"——连通了 Agent 和它所有工具、所有服务。 后面的文章里，这个概念会反复出现，现在先有个印象就好。

Agent 不是新概念，但这一波不一样

说到这你可能会问：让程序自动做事，这不是很早就有了吗？比如定时备份文件、自动发邮件——这些不也是"自动化"吗？

没错。但传统的自动化和 AI Agent 有一个本质区别：

传统自动化是"按剧本演出"——步骤是人写死的，遇到意外就卡住。

比如一个自动发邮件的脚本，你告诉它"每天 9 点给小王发一封汇报邮件"。但如果小王离职了、邮箱地址变了、汇报内容需要调整——它不会自己处理，它会继续傻乎乎地往旧地址发旧内容。

AI Agent 是"目标驱动"——你告诉它目标是什么，它自己想办法达到。

你告诉 Agent"每天早上帮我整理一下今天的待办事项，然后发给我"。如果你的待办清单在 Notion 上，它会去 Notion 上看；如果你换成了飞书文档，它也能适应。如果某天你的待办特别多，它可能还会帮你按优先级排一下。

区别在于：传统自动化执行步骤，AI Agent 理解目标。

Agent 的工作循环：感知→思考→行动→观察

让我们把 Agent 的工作方式总结成一个简洁的循环：

        ┌──────────┐        │  感知     │ ← 接收用户消息、环境变化        └────┬─────┘             ↓        ┌──────────┐        │  思考     │ ← 大语言模型分析、规划        └────┬─────┘             ↓        ┌──────────┐        │  行动     │ ← 调用工具，执行操作        └────┬─────┘             ↓        ┌──────────┐        │  观察     │ ← 看到行动的结果        └────┬─────┘             ↓        （回到"思考"，决定是否需要继续行动）

注意这里的关键：不是一轮就结束，而是可以循环多轮。

Agent 可能调用一个工具，拿到结果后发现"不够，还需要再做一步"，于是再调一个工具。就像一个真正的助手在做事——查一下资料，发现还需要确认一个细节，再查一下，然后综合起来给你一个完整的回答。

这种"自主的多步骤执行"能力，是 AI Agent 和普通聊天机器人最本质的区别。

那 OpenClaw 在这里扮演什么角色？

好，我们铺垫了两篇，是时候引出主角了。

OpenClaw 是什么？它是一个 AI Agent 的"底座"和"运行平台"。

再用一个比方来说：

大语言模型（GPT、Claude、Gemini……）是 Agent 的"大脑"
各种工具（搜索、浏览器、命令行……）是 Agent 的"双手"
而 OpenClaw 是 Agent 的"身体"和"神经系统"

它负责把这些东西组装到一起，让它们协调运转：

你从 Telegram 发来一条消息 → OpenClaw 接收它
消息需要交给哪个 Agent？→ OpenClaw 做路由分发
Agent 需要"思考"→ OpenClaw 调用大语言模型的 API
Agent 决定要"动手"→ OpenClaw 帮它调用工具
结果出来了 → OpenClaw 把回复发回给你

没有大脑，Agent 不能思考。没有双手，Agent 不能行动。但没有 OpenClaw 这样的平台，大脑和双手连不到一起。

而且 OpenClaw 还有几个特别的地方：

它跑在你自己的设备上——你的数据不需要交给任何第三方
它连接你已经在用的聊天工具——不需要打开一个新的 App
它是开源的——代码公开，任何人都可以看、可以改
它是可扩展的——通过插件系统，你可以给它加上几乎任何能力

从下一篇开始，我们就要深入 OpenClaw 的内部，一个模块一个模块地看它到底是怎么运转的。

不过在那之前，还有一个重要的知识点需要铺垫——大模型的"水电煤"：Token 到底怎么计费？API Key 是什么？市面上都有哪些大模型厂商？

这些"基础设施"问题，我们下一篇来搞定。

本篇小结

今天我们搞明白了几件事：

聊天机器人只有"嘴"，AI Agent 有"嘴"也有"手"。 Agent = 大模型（思考）+ 工具（行动）+ 自主决策。
Agent 的三个核心能力：感知（接收信息）、思考（大模型推理）、行动（调用工具）。
Agent 的工作模式是一个循环：感知 → 思考 → 行动 → 观察 → 再思考……直到任务完成。
API 是软件之间的"点单窗口"——Agent 通过 API 调用工具和模型。
OpenClaw 是 Agent 的"身体"和"神经系统"——负责把大脑、双手和感官组装到一起，让它们协调运转。

一句话总结：AI Agent 就是一个"不只能聊，还能真正帮你干活"的 AI。而 OpenClaw，就是让这种 AI 跑起来的平台。

下一篇，我们来聊一个实际但重要的话题：大模型的"水电煤"——Token、API Key 和主流的大模型厂商。搞定了这些，你就拥有了理解后面所有内容的"基础设施"。

下一篇见 👋