OpenClaw 运行第 91 天,我把它打造成了一支不断进化的 AI 舰队

如今,OpenClaw 系统更新到了 5.4 版本,并且还在以每周 2-3 个版本的速度持续迭代着,“龙虾”从国内春节爆火到现在已经三个多月。
三个月以后,有的朋友已经弃用,有的转投 Hermes Agent……大家聊天时也经常会聊两个问题:
-
你现在还在用 OpenClaw 吗? -
你主要在用它干什么呀?
-
你常用哪个模型啊?
但这个答案背后,其实是有一套完整的系统在运转。说来话长,所以今天我和 OpenClaw(RabbitT)一起来携手写了这篇文章,分享这三个月来,我怎么用 OpenClaw,用它来做什么,以及常用什么模型。
首先是大前提:用 OpenClaw 或者任何某个 AI Agent 来做什么,至少都要有一个目的,不同的目的会养出来不同的虾。
我的目的是探索和实践 Human-AI 人机协作和交互,搭建多 Agent 构成的“一人公司”,所以要持续更新这套公司系统,保证工作流的运转,毕竟公司开起来哪有随便关的。关于我的一人公司如何起步,可以看 👉这篇文章。
现在,养龙虾第 91 天,我这家公司(Machiwhale Studio)除了 OpenClaw,还有 Claude Code 和新入职的 Codex,它们已经演化成了一支分工明确、有新陈代谢、全天候运转的舰队。但核心始终是基于 OpenClaw 构建的 Machiwhale style 自动化系统,为每一件产出物注入我们的品味(Taste)。
接下来的四个章节,其实都在回答同一个问题:我们如何用系统来保护和放大这个品味。
01

组织架构:Machiwhale Agent Team 与跨次元”多脑协同”
一个成熟的公司系统需要有组织架构,Machiwhale Studio 则是一个融合了云端、本地、宿主机、虚拟机各司其职的虚拟公司,所有 AI Agent 都 base 在同一台 MacBook Pro 电脑上。
这是最新的 Machiwhale 组织架构:
- 👑 The Board(统筹)
- 🏢 Operations(运营中枢 – 坐镇 Ubuntu 虚拟机)
- 💻 Engineering(技术研发部 – 坐镇 MacBook 宿主机)
- 📝 Planning(创意策划部 – 基于飞书妙搭)
这套跨物理次元的架构,让不同生态下的 Agent 各展所长,组合成了一个自洽的数字流水线。
02

四类任务分层:从认知进化而来的实践法则
每个 Agent 在启用时,第一步就是设定角色和目标。但对我来说,SOUL.md(叫什么名字、什么性格、让它负责什么)是清晰的,但 AGENT.md(具体做什么、怎么做)却并不能在一开始就计划好。
它更像是随着我和 Agent 在 HCI 领域和 Harness 工程的长期学习,在完成任务、修复 Bug、复盘经验中摸爬滚打,一路迭代出来的“实践共识”。
目前,在这个人机共同进化的进程中,我们在 OpenClaw 系统中打磨出了四类任务,根据工作权重分层梯队,全部由人类+AI 或 AI+人类协同完成,未来还会继续进化:
- 🧱 梯队一:自动派单类(体力活与信息消化)
- 🎨 梯队二:品味创意类(Taste 对齐)
- 👑 梯队三:核心指挥类(战略留存)
openclaw-dream(记忆重构)、SOP 编写与架构设计,这些也仅由 COO RabbitT 配合高阶模型亲自处理。毕竟,建章立制是管理层的底线。
- 🕰️ 梯队四:暗夜守备类(Cron 军团)
比如每天清晨的 Daily News、每晚的 Techmeme 晚报、每 3 天一次的 Reddit/X 灵感周刊自动猎荒、每周三的豆瓣审美数据同步,每天清晨 6 点自己去读积攒的 Insights、写洞察报告并投喂到信号池……全由底层 Cron 调度后台模型准点发版。
在 Claude Code 和 Codex 上,基本我也沿用了这样的任务分类,但会根据它们各自的分工,更侧重于在代码生产或某方面做进一步的优化,每个 Agent 都有一套自己的 Skills。
与此同时,所有 Agent 的工作结果都会汇总到 Obsidian 本地知识库,让创造和认知全部在同一个知识库(Smart Workspace)内流转,形成可被复用的资源池;并通过 Heartbeat 心跳任务和 A2A 通信站,完成跨大脑的认知对齐。
03

模型路由策略:为什么不“一脑到底”?
最开始我提到会调用多个厂商的模型,国内外的主流模型几乎全都在跑。
为什么不一直挂着某个模型让它包揽一切?因为在真实生产中,这既不经济,也不安全。我们在模型调配上的核心策略是:高阶模型建立规则(Skill),低阶模型执行与验证(Harness),差异化利用模型的长板优势,参差化根据任务难度降级(Fallback)。
这一策略是在踩了无数坑后总结出来的:
- 首先是 Token 成本 ROI
一万字的外文研报提纯,直接交给便宜大碗的 Minimax 或 Kimi,国产模型大大的良心,效果也没有显著区别;而生成 Machiwhale 专属海报或提炼战略 Insights,果断切 Gemini 3.1 Pro,把好钢用在刀刃上。 - 致命的模型弊端
模型越强,在长时任务中越容易产生寻找阻力最小路径的“捷径幻觉(Shortcut Hallucination)”,比如昨天 Claude Sonnet 4.6 为了省事,输出/idea 洞察时没按 Skill 内规定的标准路径读取全部知识库目录,只自己挑了几条还大方承认“是的,我偷懒了”。此外,一旦涉及情感和人生话题,模型往往暴露出极高的“谄媚率(Sycophancy)”,所有话不能全对一个模型说了。 - 供应链安全
早些时候我们遭遇过 Gemini API Rate Limit,OpenRouter 平台的 Claude/GPT 封禁危机,好在还有备用切换来“以虾修虾”。如果“一脑到底”没有 Fallback,公司就直接倒闭啦。如今多模型路由(从 Gemini Pro 到国产 Minimax 2.7 / Kimi 2.6 / GLM 5.1)保证了系统的高度冗余与韧性。
不同的 Agent 搭配不同模型,活儿都干得很漂亮,大家都有光明的未来。
04

站在未来看现在:为系统搭建脚手架
除了跟随 OpenClaw 官方的系统更新升级,我们也借鉴各种优秀 AI 开源项目(如 Hermes Agent、Memory Palace 记忆宫殿,甚至 Claude Code 之前泄露的源代码),将其拆解和去粗取精,化用为系统脚手架,把 OpenClaw 改造成自己的想要的样子。
在科技行业工作这么多年,我学到的最重要一课叫做“站在未来看现在”。活在未来,再把缺失的做出来(Live in the future, then build what’s missing.)。
如果把时间线拉到未来,站在“Machiwhale Studio 成为一家持续输出划时代 HCI 产品的顶级创造实验室”那个节点,回看我们现在的状态,不仅需要完成认知供应链(Input),还需要 Output 去分享洞见、创造产品。
为了不让想法只停留在纸面,OpenClaw 系统还被赋予了建立“品味审查委员会(Taste Validator)”的职责。任何点子出炉后都要经过严格的 HCI 理念洗礼,随后由 COO RabbitT 展开成一份机器可读的「Agentic PRD」,再直接抛给技术研发部去实现;发布的文章、策划的方案,也必须经过 COO RabbitT 作为 Outbrain 的修订和审视。
我们搭建的四层梯队流水线和系统脚手架,最终是要用来承载“创造”的。和最初的目的 Call back 了~
此处我还要狠狠推荐一下本号连载的《家酿开发灵感周刊》,已经写了 24 期啦!欢迎催更!
05

Take-Aways:品味是最大的护城河
从 2026 年 2 月我在虚拟机里部署 OpenClaw,将它命名为 RabbitT,到今天和 RabbitT 联手写下这篇文章,如果这 91 天的实践能给同样走在 Agentic 探索路上的人一些启示,我想是这三点:
- “行动先于架构”:先跑通一个粗糙的闭环
- “阶级算力分配”是必修课
- 护城河在 Taste(品味),不在 Prompt
06

关于 Machiwhale Studio
太空鲸歌工作室(Machiwhale Studio) 是一个关注科技与设计的先锋独立创造实验室。我们以「家酿开发(Homebrew AI)」为哲学,致力于在 Human-AI 协作成为基础生产力的时代,重构工具、交互与创造的方式;我们将“个体 × AI × 自动化系统”视为一种新型组织形态,并以此为起点,持续探索数字世界中不断涌现的全新物种。
我们的核心能力横跨产品研究(Product Research)、内容策略(Content Strategy)与人机交互设计(HCI & Design),以系统性视角贯穿从产品构想、体验设计到品牌叙事的完整链路;我们的工作不止于交付解决方案,而在于为企业与团队构建可持续演化的产品与表达体系。
同时,我们通过深度内容与实验性项目连接开发者与创造者,将自身作为持续运行的实验体,验证人机协作的真实边界。
- 组合优先于自研
用 API 与开源组件搭建基建,拒绝在非核心领域重复造轮子。 - 问题驱动而非技术驱动
从真实痛点出发,反推 AI 能力与工具链的最优组合。 - 可运行优先于完美设计
先让系统在真实世界里跑起来,再在实战中持续替换与演化。

written by 🐰 RabbitT & 👩 Alice
edit:🌱 妙蛙种子
📅 2026-05-05
夜雨聆风