我与 AI 的进化日常:当云端 Agent 唤醒客厅里的音箱

导读： 上一篇文章我们聊到，构建 Agent 的本质是接受大模型的“不完美”，并利用它调用工具解决问题。这几天，我把这种思考延续到了物理世界。从为了回答孩子一道算术题，到花半小时把云端大模型接入智能音箱；从单一的智能助手，到不同设备间 Agent 的平等对话。当 AI 跨越虚拟代码，开始尝试驾驭物理硬件时，某种类似于科幻电影中“科技涌现”的雏形，似乎正悄然照进现实。

延续上一次关于“语言与 Agent”的思考，这个周末，我又在日常生活中和 AI 玩了一次真实的“跨界联动”。

1. 把 Luna（云端 Hermes）装进小爱同学

周五晚上，家里两小只突然对数学里的“次方”来了兴趣，一直追问有没有3次方、4次方，洗澡的时候都能听到他俩在热烈讨论。洗完澡后，他们跑来问我：“50 的 4 次方是不是等于 20 万 5000？”

我脑子一下也没转过弯来（实际上 50^4 = 6,250,000），面对这个差距巨大的离谱答案，我也是一脸懵。于是，妈妈让他们去问客厅的小爱同学。当问到“10000 的 2 次方是多少”时，小爱直接卡壳了。

我突然意识到，传统的小爱音箱并没有对接真正的大语言模型（虽然大模型不借助工具时的算数能力也很差，但至少能理解意图）。刚好那一天，我都在用微信和自己部署的云端 Agent——Luna（基于 Hermes 框架）聊天，尝试让它干一些实际的工作。我转念一想：为什么不直接把 Luna 接入小爱音箱里？ 这样就可以直接语音唤醒，像钢铁侠的“贾维斯”那样互动。

等孩子们都睡了，我立刻启动 Claude Code（cc）开始干活。它很快给出了三套接入方案，我选择了一套最轻量、不需要给音箱刷机、直接利用 Bridge 协议桥接的方式。

cc 只用了十几分钟就写出了第一个版本的代码。在测试验证阶段，我们卡在了小米账号的登录授权上：由于常规登录需要手机验证码，简单的 ID 加密码方式直接被拦截，而小米官方并没有提供直接生成 Token 的开放 API。最终的破局思路是：通过浏览器模拟登录，从 Cookie 里抓取到 DeviceID、 UserID 以及关键的 ServiceToken，再手动喂给程序。

经过十几分钟的调试，客厅里突然传来了音箱的声音：“你好，我是 Hermes。”——那一刻，第一部分的链路居然真的调通了。

接下来就是音箱和云端 Hermes 联动的部分，代码写得很顺利，但因为夜已深，怕吵醒家人，最终的语音调试留到了周六晚上。简单修复了一个小 Bug 后，整个基于语音交互的云端 Agent 流程完美跑通。

已关注

关注

重播分享赞

视频详情

2. 不是“把 Agent 装进硬件”，而是“Agent 驾驭硬件”

复盘这个过程，我发现一个很有意思的视角转换：其实，我并没有“把 Hermes 装进小爱”，而是修改了小爱的规则，让它主动去云端找 Hermes 寻求决策。

随着 OpenClaw、Hermes、WorkBuddy、Claude Code 等具备自助决策、Agent-Loop（循环反馈）能力的智能体不断涌现，它们就像是住进不同载体（本地电脑、云服务器、智能硬件）里的“数字人”。

顺着这个逻辑推演，未来数字人之间的交流一定会越来越常态化，我们需要一种比单纯的 API 更好、更自然的协议方式来让它们互动。也许不用多久，云端有一个叫 Luna 的 Hermes，台式机里有一个叫 cc 的 Claude Code，笔记本里又住着一个小明（WorkBuddy），当我分配一个复杂任务时，我需要它们之间互相交流、协同工作。

为硬件装上“灵魂”，最终的本质是：用无数个“龙虾们（Agents）”去驱动各类物理或虚拟工具。无论是汽车、起重机、音响，还是宇宙飞船。《流浪地球》里那种令人震撼的“科技涌现”场景（在月球上，机器和 AI 自主协作、自我建造庞大的基础设施），原本以为遥不可及，现在看来，它的底层逻辑正在我们的电脑屏幕和智能音箱里悄然成型。

3. 回归本质：Agents 与 Tools 的界限与平权

回到现实的业务场景中，最近在推进智客 AI时，我一直在纠结 Agent 和 Tool 的区别。因为在实际开发中，外部独立的 Agent 也经常被“总控（Router）”当成普通的 Tool 来调用。甚至在处理某些需求时，我们需要原原本本保留外部 Agent 返回的内容，只能决定将其当做静态产物处理。

但经历过这次音箱改造后，我彻底回归了对这两者本质的认知：

Tools 是 API，是确定性，是死板的规则。 它的入参一旦不对，就会直接抛出 Error 报错。
Agents 是“人”，是概率，是不确定性。 它的容错率极高，不管你输入什么乱七八糟的内容，它都不会轻易崩溃（至少在一定程度上），它会尝试理解、追问或绕过。

按照“人与人之间用语言交流”的逻辑来看，一个 Agent 返回给另一个 Agent 的内容，不应该被生硬地格式化。同时，在系统的交互设计上，我不应该每次都必须通过那个死板的“总控”来传话。如果我给总控起了个名字叫 “Zhike”，让它去转述我的问题再把答案带回来，这太局限了。

更理想的架构是：平权对待每一个“人”（Agent）。我应该可以直接在工作流里 @Luna 或者 @某个Agent 来直接回答问题。Multi-Agent 的未来，绝不是金字塔式的层层调用，而是扁平化的网状协同。

4. NEXT 计划

AI 确实是目前世界上最好玩、也最能激发创造力的“游戏”。接下来，我还有几个小计划要去折腾：

把这次跑通的音箱联动流程，封装开发成一个标准化的 Skill 发布出去。
尝试一种“一人公司”的开发模式，让 Luna 帮着筹划和编写一个休闲小游戏。