我厌烦了打字。
甚至厌烦了说话。
很多东西就在那里——屏幕上的内容、我正在做的事、所有的上下文——全都在。为什么 AI 不能直接看到,然后去做?
为什么我还要开口?
这是我在做 Cozmio 的原因。一个专为 Agent 设计的桌面端系统,核心是主动型智能体——不是等你说话才动,是它自己看到了,自己判断,自己行动。
---
在做这个的过程中,我发现了一个问题。
用 Claude Code 帮我构建 Agent 的时候,它不知道自己在做 Agent。
它会写代码,但它用做普通软件的逻辑来做 Agent。每次遇到需要传递上下文的地方,它就把所有东西打包成结构化字段:
runtimeState: "FILLING"
handoffEligibility: true
evidenceCards: [...]
然后 Agent 的行为开始漂移。越调越奇怪,越来越难排查。
原因是:代码在制造语义,而这是模型的事。
普通软件的输出是确定性的,不带语义。Agent 的输出是语义性的,它包含意图、推断、判断。你不能把语义压缩进几个字段里,那样模型拿到的就是一堆碎片,而不是一个完整的情境。
模型更擅长理解的是这样的东西:
用户当前正在填写报告的第二部分。
停顿了 2 分钟,当前判断为暂停状态。
用户之前说过:「这部分我不确定怎么写」
连续的、带有语境的叙事。而不是离散的字段。
---
所以我做了 11 个 Claude Code Skills,专门告诉它怎么做 Agent 工程。
核心是 `agent-design`——在写任何代码之前,先想清楚三件事:
- 用户做了什么,Agent 才应该介入?
- Agent 要帮用户完成的具体动作是什么?
- 用户拿到输出之后做了什么,才算这次 Agent 有效?
这三个问题答不清楚,后面写的所有代码都会走偏。
其他 Skills 处理的是:如何测试 Agent 行为、如何设计子 Agent 流水线、如何在不压缩语义的情况下传递上下文。
现在开源了:
https://github.com/147qaz258-ead/agent-engineering-skills
---
Cozmio 还在做。
夜雨聆风