大家平时跑本地的 AI Agent(智能体),是不是都习惯了盯着终端里飞速滚动的黑底白字?
看着它们“思考、调用工具、输出”,虽然硬核,但总觉得少了点可视化的乐趣。为了让这一切变得极度舒适,我最近突发奇想:能不能把正在干活的 AI Agent 具象化,做一个实时的网页监控大屏?
于是,这座跑在公网上的「花果山」诞生了。大家可以直接访问我的站点去感受一下实时联动的效果:www.56cto.com
在我的屏幕上,底层的 Agent 不再是冰冷的代码,而是变成了一只只小猴子。大王端坐王座统揽全局,巡山猴在小径溜达(执行搜索任务),文案猴在石桌奋笔疾书(处理文档)。今天,就来和大家拆解一下这个项目的制作思路,以及它背后无限的扩展玩法。下面是演示视频:
💡 核心制作思路:安全与酷炫的平衡
要做这个监控大屏,最先遇到的死穴是网络架构与数据安全。
我的核心大脑(OpenClaw)跑在本地电脑上,因为这里有算力和本地文件;但监控大屏需要放到公网上,让所有人免密访问、即开即看。
把本地端口直接穿透暴露给公网?绝对不行,太危险了。稍有不慎,别人就能顺着网线黑进我的本地环境。
为此,我设计了一套“单向推流广播”架构,分为三块核心拼图:
- 本地大脑(发报机):
AI Agent 依然在本地安全舒适的内网环境里运行。我给它的核心代码挂载了一个“钩子(Hook)”,每当 Agent 切换状态(思考、写字、摸鱼)时,就附带一个复杂的安全口令,把轻量级的状态数据通过 WebSocket 推向云端。 - 云端基站(大喇叭):
在云服务器上跑一个极简的 Python WebSocket 脚本。它像一个保安兼广播员,只接收带正确口令的数据。收到后,瞬间把“某某猴子正在干嘛”的指令广播给所有打开网页的访客。 - 公网大屏(皮影戏):
前端纯 HTML + JS,没有任何后端逻辑。它连上云端基站后,就静静地等着听指令。一旦收到 JSON 数据,前端的 JS 就会驱动 CSS 动画,让对应的猴子瞬移到指定坐标,并切换“巡山”、“写字”或“劈柴”的动作。
这套架构的好处是:大屏上看到的永远只是“状态元数据”,真正的核心业务数据(比如投标书解析、架构图设计)依然老老实实地保存在本地的 Markdown 日记里,实现了 100% 的物理级脱敏。
🚀 架构的迷人之处:万物皆可映射
跑通了底层逻辑后,你会发现这个框架的扩展性强得可怕。因为它本质上是一个“状态机 -> 视觉呈现”的映射器。
以这座「花果山」为例,目前的映射规则是:
* Agent 搜索信息 = 巡山猴 + PATH 坐标 + 巡逻动画
* Agent 处理文档 = 钻风猴 + TABLE 坐标 + 写字动画
* Agent 闲置待命 = 小毛猴 + CAVE 坐标 + 摸鱼动画
但如果我们把格局打开呢?
1. 场景与 UI 的无缝换肤(现代办公室模拟器)
如果你觉得“花果山”太跳脱,完全可以把它换成一个中规中矩的现代办公室,或者赛博朋克风的数据中心。
只需要替换前端的背景图和人物 CSS 精灵图:
* 大王变成坐在独立办公室里的 “总架构师”。
* 巡山的猴子变成四处跑动收集数据的 “业务调研专员”。
* 写字的猴子变成格子间里疯狂敲键盘的 “全栈开发工程师”。
只要你喜欢,完全可以根据你自己的业务场景,捏出任何你喜欢的风格和环境。
2. 智能体反馈内容的升维
目前大屏上,Agent 只是通过头顶的气泡说几句话。但实际上,本地正在源源不断地生成详尽的 Markdown 日记(思考链、调用了什么 API、生成了什么文件)。
下一步,完全可以在大屏侧边栏增加一个“实时工作流面板”。
当前端的“程序员”在敲键盘时,旁边的面板实时滚出它正在生成的代码;当“调研专员”在跑动时,大屏上同步画出它刚抓取到的数据报表。这就变成了一个极具科技感的企业级智能体数字孪生大屏。
3. 多智能体协作的可视化
当你的系统里有 5 个甚至 10 个 Agent 在相互交接任务时,看终端日志绝对会头晕眼花。但如果放在二维地图上,你能直观地看到“项目经理”走到“开发”面前递交了需求,“开发”转头把东西扔给了“测试”。复杂逻辑的流转变得肉眼可见。
结语
把 AI Agent 从终端里“释放”出来,变成可视化的大屏,不仅是为了好玩,更是为了让我们更直观地理解和掌控 AI 的工作流。
技术本该是极度舒适的。你的 AI Agent,今天在什么样的环境里打工呢?
后续待项目更成熟后,我会将项目开源。
🔗 欢迎来我的主页体验实时联动效果,或者交流更多好玩的 AI 架构思路: www.56cto.com
夜雨聆风