Agentic AI 技能设计的十大设计原则

这是一篇由 Carlos E. Perez 撰写的关于 Agentic AI（代理式 AI）技能设计的深度文章。

作者：Carlos E. Perez (@IntuitMachine)

引言：一本会自动编写的食谱

当人们发现 AI 系统可以变得极其高效——不是提升 2 倍，而是 10 倍甚至 100 倍时，他们通常认为是因为模型更聪明了：更好的算法、更多的参数，或者是 AI 内部的某种“秘密武器”。

事实并非如此。那些获得卓越成果的人使用的是和大家一样的模型。区别在于他们如何封装这些模型——具体来说，就是他们如何编写**“技能”（Skills）**。

技能是一个可重复使用的文档，它教 AI 如何做某事。它不是指在某个特定情况下该做什么，而是如何处理一整类任务。可以把它看作是“食谱”而非“订单”。它是“如何调查检举信”，而不是“告诉我史密斯博士是否被禁言了”。

同一个技能，通过不同的输入调用，可以让 AI 变成医疗研究分析师、法医调查员或政策合规审计师。技能描述过程，调用则供应具体的场景。

本文总结了设计这些优秀技能的十条原则。这些不是小花招，而是关于 AI 系统运作方式的结构性见解。

原则 1：技能是食谱，而非订单

一个常见的错误是编写如下形式的技能：

“分析客户反馈并总结关键主题。”

这不叫技能，这叫订单。它只在特定情况下生效一次，然后就失效了。因为它把具体内容固化在了指令里，无法复用。

一个真正的技能看起来是这样的：

技能名称： 主题分析

参数： 语料库（文档）、问题（寻找的目标）、深度（快速扫描或深度挖掘）

过程：
1. 阅读语料库并记录初步印象。
2. 识别重复模式——哪些内容反复出现？
3. 为你发现的主题命名。
4. 为每个主题提取代表性示例。
5. 评估：哪些主题对“问题”最重要？
6. 按重要性排序编写综合报告。

核心差异： 技能描述的是一种方法论，无论你分析的是客户反馈、员工调查、学术论文还是法律证词，它都适用。技能是食谱，参数是食材。

原则 2：教导思考方式，而非结论

人们往往倾向于在技能中直接告诉 AI 应该得出什么结论：

“步骤 4：结论是证据支持对患者安全的担忧。”

这违背了初衷。你预设了结果，把 AI 变成了证实你结论的傀儡。即便你是对的，这个技能在证据指向不同方向时也将毫无用处。

好的技能教导如何思考：

“步骤 4：权衡支持和反对假设的证据。思考：时间线是否合理？是否有其他解释？什么样的证据会改变你的想法？根据你的发现得出自己的结论。”

测试标准： 你能否调用这个技能来论证相反的结论？如果一个“调查检举”的技能既能得出“此人被禁言”，也能得出“投诉毫无根据”（基于不同证据），那这就是一个真正的技能。

原三原则：划清“判断”与“计算”的界限

AI 系统中的每一步都属于以下两类之一，混淆它们是设计中最常见的错误：

判断（Judgment）： 智能的所在。阅读文档并决定什么是重要的、权衡相互冲突的考量、识别模式、察觉异常。这是 AI 真正擅长的。

计算（Computation）： 可靠性的所在。输入相同，输出恒定。数据库查询、算术、排序、字数统计、日期范围检查。传统软件能完美完成，AI 则不可靠。

案例： 让 AI 安排 8 个人在一张餐桌上，考虑人际关系。它会做得非常出色（判断问题）。但如果让它按同样约束安排 800 人，它会生成一个看起来像座位表但实际上违反了无数规则的错误结果（优化问题）。

原则： 技能应明确界限。标记哪些步骤需要判断（让 AI 思考），哪些需要计算（调用工具）。不要让 AI 做算术，也不要让计算器做解读。

原则 4：魔法在于“通读全文”

AI 能做一件数据库查询做不到的事：读完关于某个人的 50 份文档，发现矛盾，追踪故事随时间的变化，并写出一份捕捉其真实特征的一页简介。

我们称之为日志化综述（Diarization）——将碎片化的信息合成结构化的情报。

原则： 构建能够阅读所有内容并进行综合的技能。不要预先过滤掉“无关”文档，因为在你读完之前，你根本不知道什么是相关的。力量源于全局视野下涌现的综合见解。

原则 5：在正确的时刻提供正确的文档

我曾犯过一个错误：为 AI 助手写了 2 万行的指令。我以为指引越多越好，结果反而更糟。AI 的注意力是有限的。

解决方案： 缩减到 200 行，但这些行不是指令，而是指针（Pointers）。

当你在做 X 时，加载文档 Y。

当你看到模式 A 时，咨询技能 B。

这被称为解析器（Resolver）。伟大的助手不会在你提问时读完整个公司手册，他们知道哪一页对这个问题重要，并直接翻到那一页。

原则 6：智能上移，执行下移

把你的 AI 系统想象成一个三层蛋糕：

顶层：技能（Skills）。 充满过程、判断和智慧的自然语言文档。这是 90% 的价值所在。

中层：框架/马达（Harness）。 很薄的代码层（约 200 行）。负责循环运行 AI、管理上下文和调用工具。没有业务逻辑，只有管道。

底层：工具（Tools）。 快速、简单的程序。执行数据库查询、读取文件、发送邮件。

原则： 将智能推向顶层的“技能”，将执行压向底层的“工具”，保持中间的“框架”轻量化。

原则 7：快速且精准优于慢速且通用

不要试图构建全能工具（如“全能浏览器工具”或“全能数据库工具”）。

通用工具太慢： 泛化流程可能需要 15 秒，而专用工具只需 100 毫秒。

通用工具臃肿： 它们会吞噬 AI 宝贵的上下文带宽。

通用工具掩盖复杂度： 它们在不可见的地方偷偷做出了“判断”。

原则： 构建快速、精准且“愚笨”的工具。每个工具只做一件事，且在 0.5 秒内完成。

原则 8：追求“还不错”，那是进步的阶梯

用户对 AI 输出有三种反应：太棒了、还行（OK）、太烂了。

大多数人盯着“太烂了”去修复，但“还行”才是进步的来源。“太烂了”通常是程序崩溃或技能选错，属于 Bug。而“还行”意味着机制生效了，判断也应用了，但还不够深入。

原则： 建立一个关注“反应平平”的反馈闭环。分析为什么它只是“还行”而不是“太棒了”，然后修改技能来弥补这个差距。

原则 9：编写一次，永久运行

区分 10 倍效率者的准则：

“不允许做一次性工作。如果我让你做某事且它可能再次发生，你必须：先手动做几个例子，展示给我看，如果我批准，就把它固化成一个技能。”

每一项你编写的技能都是对系统的永久升级。当 AI 模型改进时，你的技能会自动变得更强大。这是一种可以累积、不贬值的资产。

原则 10：相同的过程，不同的世界

考虑一个名为 /match（匹配）的技能，它的任务是根据标准对实体进行分组。

场景 A（会议分组）： 实体 = 1200 名创始人，标准 = 行业相似。

场景 B（社交午餐）： 实体 = 600 名创始人，标准 = 跨行业新鲜感。

场景 C（即时联络）： 实体 = 建筑内的当前人员，标准 = 最近邻嵌入。

同一个技能，相同的步骤，完全不同的行为。 这就是让 AI 从好奇心工具变成效能倍增器的杠杆。

结语：固化的纪律

这十条原则指向同一个核心：固化（Codification）。

那些获得 100 倍回报的人并不是更聪明，他们只是不懈地将自己的工作方法、判断标准和识别出的模式固化成“技能”。

一年后，你的技能将在比今天更好的模型上运行。你现在写下的每一项技能，都是对未来能力的投资。

写下食谱，做好这顿饭，分享食谱，然后开始下一道。这就是修行。