Hermes使用第一周:我和AI的成长小说

（配上攻壳机动队的片尾曲非常合适啊

Hermes是我第二次被AI能力震惊到的瞬间，第一次是去年三四月作为非技术出身的人首次用trae做vibe coding。

这一年来，我的AI工具一直在演化：trae——cursor+manus+gpt+dify——codex+claudecode+manus——hermes+codex+claudecode。我用codex可以完成coding、数据分析、skills等等工作之中和工作之外的事情，额度告急就用cc接国产模型api，好像没有什么做不到的。

而想用hermes的缘起很简单，我实在想知道公司里经常讲的自迭代到底是个啥……

于是我花了一周+一百多元+上亿token+买了一个VPS，解锁了26个hermes的成就，设置了3个cron定时任务，诞生了n个skills。

成就系统太好玩了像steam

01 一周的时间能发生什么

5.6 安装hermes，给自己做了一个飞书的产品灵感收集助手

5.7 发现成就系统，发现openrouter开销过大，换成正在折扣的deepseek v4pro，并且想尽办法找到成本高的原因去解决

做了一个token成本分析的skill来对账
做了一个状态栏插件，用来提示上下文窗口、对话轮次、开销成本、成就数量，做了handoff后/new自动读取压缩内容，才意识到codex原来把这些体验做得如此丝滑、交互如此简洁！！
增加解锁成就时在terminal对话窗口提示的彩蛋效果，我的心情会更好

5.9 发现cron定时调度任务的问题，买了5美金一个月的vps

5.11 查看周度token成本复盘的报告，发现复盘token成本也是锻炼数据思维的方式

5.12 还在改产品灵感收集助手的问题。又搞了一个codex/claudecode/hermes等agent产品动态追踪的cron任务

5.13 安装了hermes新出的computer use插件，并且解决了一个codex上没有解决的工作问题，做了数据分析

这个过程让我想起罗福莉在播客上讲她春节用 OpenClaw 的经历。她先用 Claude Opus 改 OpenClaw 的 agent 架构，改到好用了再换成中层模型——然后发现中层模型也能把任务执行得很好。直到我自己用开源的hermes玩得不亦乐乎，我才理解原来build的成本可以这么低：用开源半成品自己亲手踩一遍坑来学习，再像做陶器一样打磨成适合自己的形状。

02 产品怎么用Hermes？

（1）Hermes会在无感的情况下自己更新记忆、创建并更新skills，所以适合用来沉淀自己的工作流。

我在反复修改产品灵感助手的时候，突然看到terminal窗口有一条写入常见缺陷的记录。点开skills.md，绷不住那最后一部分「常见陷阱」里20条密密麻麻都是踩过的坑。每一条有日期、有根因、有修复方案，有的还标注了「当前状态」和「理想方案待实现」。

那它怎么判断什么时候是该存记忆还是skills？什么时候更新skills？记忆达到上限时怎么更新？我在这里粘贴一下它的回复：

> **Hermes**：好问题——这涉及 Hermes 三层知识的分类逻辑。不在代码里，在 system prompt 的规则里。

> `prompt_builder.py` 注入了三条自然语言规则，LLM 每次读完后自行判断：

> **Memory** — 持久事实，每次对话都注入：

> 「User preferences and recurring corrections matter more than procedural task details. Do NOT save task progress, session outcomes... If a fact will be stale in a week, it does not belong in memory. Write memories as declarative facts, not instructions to yourself.」

> **Skill** — 可复用工作流，任务触发时才加载：

> 「After completing a complex task (5+ tool calls), fixing a tricky error, or discovering a non-trivial workflow, save the approach as a skill. When using a skill and finding it outdated, incomplete, or wrong, patch it immediately.」

> **Session Search** — 临时任务状态，不持久化：

> 「Use session_search to recall those from past transcripts.」

> 所以没有硬编码的分类逻辑。Agent 靠这三个规则做运行时判断：用户偏好去 Memory，可复用工作流去 Skill，会过时的东西不存、用 session_search 回查。

我觉得C 端用户产品反而很难被AI蒸馏，有太多经验、直觉、决策来自模糊的、定性的、非结构化的那部分。在AI出现之前，依靠古法调研我虽然做了一些dirtywork，但也扎扎实实打下了基本功，能判断我该在什么时候做什么分析预期得到什么结论、是不是伪需求PMF是什么、该用什么产品形态做。

所以我首先去复刻了实习时做过的事情——用户session分析skill、用户反馈分析skill、搜索词分析skill、竞品追踪skill、各种数据分析skill。但是这只是单点的分析，并且从洞察分析到需求定义、判断需求价值还有很远的路径，持续的思考和经验的积累才能汇集成近乎直觉的判断力。这或许还需要群体智慧。

目前我摸索出来的一个方式是，把Hermes当成实习生用钉钉文档/飞书云文档来协作，批注、编辑你认为需要改的地方，让它记住为什么这么改、为什么这么决策判断。然后这些决策经验先积累下来看看会发生什么。

（2）学习agent架构并在它的基础上build

其实之前我不太在意token成本，codex这种订阅制确实省心。我也不了解上下文管理的技巧，毕竟codex自己就自动压缩了，还有圆环提示上下文窗口。但直到我在hermes自己花钱买的token开始肉疼了，才算真正接触一些原理。

就像我前面说的，有这么多好的开源或闭源的agent在以周维度更新迭代，社区有无数贡献。这简直就是知识的海洋……完全可以用hermes自己复刻功能来学习。另外本身这也是一种需求场景，你自己为了顺手做的改动和小功能还可以开源分享到github。

后续将持续把我使用hermes的经验和感想build in public～欢迎关注讨论