导读: 上一篇文章我们聊到,构建 Agent 的本质是接受大模型的“不完美”,并利用它调用工具解决问题。这几天,我把这种思考延续到了物理世界。从为了回答孩子一道算术题,到花半小时把云端大模型接入智能音箱;从单一的智能助手,到不同设备间 Agent 的平等对话。当 AI 跨越虚拟代码,开始尝试驾驭物理硬件时,某种类似于科幻电影中“科技涌现”的雏形,似乎正悄然照进现实。
延续上一次关于“语言与 Agent”的思考,这个周末,我又在日常生活中和 AI 玩了一次真实的“跨界联动”。

1. 把 Luna(云端 Hermes)装进小爱同学
周五晚上,家里两小只突然对数学里的“次方”来了兴趣,一直追问有没有3次方、4次方,洗澡的时候都能听到他俩在热烈讨论。洗完澡后,他们跑来问我:“50 的 4 次方是不是等于 20 万 5000?”
我脑子一下也没转过弯来(实际上 50^4 = 6,250,000),面对这个差距巨大的离谱答案,我也是一脸懵。于是,妈妈让他们去问客厅的小爱同学。当问到“10000 的 2 次方是多少”时,小爱直接卡壳了。
我突然意识到,传统的小爱音箱并没有对接真正的大语言模型(虽然大模型不借助工具时的算数能力也很差,但至少能理解意图)。刚好那一天,我都在用微信和自己部署的云端 Agent——Luna(基于 Hermes 框架)聊天,尝试让它干一些实际的工作。我转念一想:为什么不直接把 Luna 接入小爱音箱里? 这样就可以直接语音唤醒,像钢铁侠的“贾维斯”那样互动。
等孩子们都睡了,我立刻启动 Claude Code(cc)开始干活。它很快给出了三套接入方案,我选择了一套最轻量、不需要给音箱刷机、直接利用 Bridge 协议桥接的方式。
cc 只用了十几分钟就写出了第一个版本的代码。在测试验证阶段,我们卡在了小米账号的登录授权上:由于常规登录需要手机验证码,简单的 ID 加密码方式直接被拦截,而小米官方并没有提供直接生成 Token 的开放 API。最终的破局思路是:通过浏览器模拟登录,从 Cookie 里抓取到 DeviceID、 UserID 以及关键的 ServiceToken,再手动喂给程序。
经过十几分钟的调试,客厅里突然传来了音箱的声音:“你好,我是 Hermes。”——那一刻,第一部分的链路居然真的调通了。
接下来就是音箱和云端 Hermes 联动的部分,代码写得很顺利,但因为夜已深,怕吵醒家人,最终的语音调试留到了周六晚上。简单修复了一个小 Bug 后,整个基于语音交互的云端 Agent 流程完美跑通。

2. 不是“把 Agent 装进硬件”,而是“Agent 驾驭硬件”
复盘这个过程,我发现一个很有意思的视角转换:其实,我并没有“把 Hermes 装进小爱”,而是修改了小爱的规则,让它主动去云端找 Hermes 寻求决策。
随着 OpenClaw、Hermes、WorkBuddy、Claude Code 等具备自助决策、Agent-Loop(循环反馈)能力的智能体不断涌现,它们就像是住进不同载体(本地电脑、云服务器、智能硬件)里的“数字人”。
顺着这个逻辑推演,未来数字人之间的交流一定会越来越常态化,我们需要一种比单纯的 API 更好、更自然的协议方式来让它们互动。也许不用多久,云端有一个叫 Luna 的 Hermes,台式机里有一个叫 cc 的 Claude Code,笔记本里又住着一个小明(WorkBuddy),当我分配一个复杂任务时,我需要它们之间互相交流、协同工作。
为硬件装上“灵魂”,最终的本质是:用无数个“龙虾们(Agents)”去驱动各类物理或虚拟工具。无论是汽车、起重机、音响,还是宇宙飞船。《流浪地球》里那种令人震撼的“科技涌现”场景(在月球上,机器和 AI 自主协作、自我建造庞大的基础设施),原本以为遥不可及,现在看来,它的底层逻辑正在我们的电脑屏幕和智能音箱里悄然成型。
3. 回归本质:Agents 与 Tools 的界限与平权
回到现实的业务场景中,最近在推进智客 AI时,我一直在纠结 Agent 和 Tool 的区别。因为在实际开发中,外部独立的 Agent 也经常被“总控(Router)”当成普通的 Tool 来调用。甚至在处理某些需求时,我们需要原原本本保留外部 Agent 返回的内容,只能决定将其当做静态产物处理。
但经历过这次音箱改造后,我彻底回归了对这两者本质的认知:
- Tools 是 API,是确定性,是死板的规则。 它的入参一旦不对,就会直接抛出 Error 报错。
- Agents 是“人”,是概率,是不确定性。 它的容错率极高,不管你输入什么乱七八糟的内容,它都不会轻易崩溃(至少在一定程度上),它会尝试理解、追问或绕过。
按照“人与人之间用语言交流”的逻辑来看,一个 Agent 返回给另一个 Agent 的内容,不应该被生硬地格式化。同时,在系统的交互设计上,我不应该每次都必须通过那个死板的“总控”来传话。如果我给总控起了个名字叫 “Zhike”,让它去转述我的问题再把答案带回来,这太局限了。
更理想的架构是:平权对待每一个“人”(Agent)。我应该可以直接在工作流里 @Luna 或者 @某个Agent 来直接回答问题。Multi-Agent 的未来,绝不是金字塔式的层层调用,而是扁平化的网状协同。
4. NEXT 计划
AI 确实是目前世界上最好玩、也最能激发创造力的“游戏”。接下来,我还有几个小计划要去折腾:
- 把这次跑通的音箱联动流程,封装开发成一个标准化的 Skill 发布出去。
- 尝试一种“一人公司”的开发模式,让 Luna 帮着筹划和编写一个休闲小游戏。
夜雨聆风