这是一篇由 Carlos E. Perez 撰写的关于 Agentic AI(代理式 AI)技能设计的深度文章。
作者:Carlos E. Perez (@IntuitMachine)
引言:一本会自动编写的食谱
当人们发现 AI 系统可以变得极其高效——不是提升 2 倍,而是 10 倍甚至 100 倍时,他们通常认为是因为模型更聪明了:更好的算法、更多的参数,或者是 AI 内部的某种“秘密武器”。
事实并非如此。那些获得卓越成果的人使用的是和大家一样的模型。区别在于他们如何封装这些模型——具体来说,就是他们如何编写**“技能”(Skills)**。
技能是一个可重复使用的文档,它教 AI 如何做某事。它不是指在某个特定情况下该做什么,而是如何处理一整类任务。可以把它看作是“食谱”而非“订单”。它是“如何调查检举信”,而不是“告诉我史密斯博士是否被禁言了”。
同一个技能,通过不同的输入调用,可以让 AI 变成医疗研究分析师、法医调查员或政策合规审计师。技能描述过程,调用则供应具体的场景。
本文总结了设计这些优秀技能的十条原则。这些不是小花招,而是关于 AI 系统运作方式的结构性见解。
原则 1:技能是食谱,而非订单
一个常见的错误是编写如下形式的技能:
“分析客户反馈并总结关键主题。”
这不叫技能,这叫订单。它只在特定情况下生效一次,然后就失效了。因为它把具体内容固化在了指令里,无法复用。
一个真正的技能看起来是这样的:
- 技能名称: 主题分析
- 参数: 语料库(文档)、问题(寻找的目标)、深度(快速扫描或深度挖掘)
- 过程:
- 阅读语料库并记录初步印象。
- 识别重复模式——哪些内容反复出现?
- 为你发现的主题命名。
- 为每个主题提取代表性示例。
- 评估:哪些主题对“问题”最重要?
- 按重要性排序编写综合报告。
核心差异: 技能描述的是一种方法论,无论你分析的是客户反馈、员工调查、学术论文还是法律证词,它都适用。技能是食谱,参数是食材。
原则 2:教导思考方式,而非结论
人们往往倾向于在技能中直接告诉 AI 应该得出什么结论:
“步骤 4:结论是证据支持对患者安全的担忧。”
这违背了初衷。你预设了结果,把 AI 变成了证实你结论的傀儡。即便你是对的,这个技能在证据指向不同方向时也将毫无用处。
好的技能教导如何思考:
“步骤 4:权衡支持和反对假设的证据。思考:时间线是否合理?是否有其他解释?什么样的证据会改变你的想法?根据你的发现得出自己的结论。”
测试标准: 你能否调用这个技能来论证相反的结论?如果一个“调查检举”的技能既能得出“此人被禁言”,也能得出“投诉毫无根据”(基于不同证据),那这就是一个真正的技能。
原三原则:划清“判断”与“计算”的界限
AI 系统中的每一步都属于以下两类之一,混淆它们是设计中最常见的错误:
- 判断(Judgment): 智能的所在。阅读文档并决定什么是重要的、权衡相互冲突的考量、识别模式、察觉异常。这是 AI 真正擅长的。
- 计算(Computation): 可靠性的所在。输入相同,输出恒定。数据库查询、算术、排序、字数统计、日期范围检查。传统软件能完美完成,AI 则不可靠。
案例: 让 AI 安排 8 个人在一张餐桌上,考虑人际关系。它会做得非常出色(判断问题)。但如果让它按同样约束安排 800 人,它会生成一个看起来像座位表但实际上违反了无数规则的错误结果(优化问题)。
原则: 技能应明确界限。标记哪些步骤需要判断(让 AI 思考),哪些需要计算(调用工具)。不要让 AI 做算术,也不要让计算器做解读。
原则 4:魔法在于“通读全文”
AI 能做一件数据库查询做不到的事:读完关于某个人的 50 份文档,发现矛盾,追踪故事随时间的变化,并写出一份捕捉其真实特征的一页简介。
我们称之为日志化综述(Diarization)——将碎片化的信息合成结构化的情报。
原则: 构建能够阅读所有内容并进行综合的技能。不要预先过滤掉“无关”文档,因为在你读完之前,你根本不知道什么是相关的。力量源于全局视野下涌现的综合见解。
原则 5:在正确的时刻提供正确的文档
我曾犯过一个错误:为 AI 助手写了 2 万行的指令。我以为指引越多越好,结果反而更糟。AI 的注意力是有限的。
解决方案: 缩减到 200 行,但这些行不是指令,而是指针(Pointers)。
- 当你在做 X 时,加载文档 Y。
- 当你看到模式 A 时,咨询技能 B。
这被称为解析器(Resolver)。伟大的助手不会在你提问时读完整个公司手册,他们知道哪一页对这个问题重要,并直接翻到那一页。
原则 6:智能上移,执行下移
把你的 AI 系统想象成一个三层蛋糕:
- 顶层:技能(Skills)。 充满过程、判断和智慧的自然语言文档。这是 90% 的价值所在。
- 中层:框架/马达(Harness)。 很薄的代码层(约 200 行)。负责循环运行 AI、管理上下文和调用工具。没有业务逻辑,只有管道。
- 底层:工具(Tools)。 快速、简单的程序。执行数据库查询、读取文件、发送邮件。
原则: 将智能推向顶层的“技能”,将执行压向底层的“工具”,保持中间的“框架”轻量化。
原则 7:快速且精准优于慢速且通用
不要试图构建全能工具(如“全能浏览器工具”或“全能数据库工具”)。
- 通用工具太慢: 泛化流程可能需要 15 秒,而专用工具只需 100 毫秒。
- 通用工具臃肿: 它们会吞噬 AI 宝贵的上下文带宽。
- 通用工具掩盖复杂度: 它们在不可见的地方偷偷做出了“判断”。
原则: 构建快速、精准且“愚笨”的工具。每个工具只做一件事,且在 0.5 秒内完成。
原则 8:追求“还不错”,那是进步的阶梯
用户对 AI 输出有三种反应:太棒了、还行(OK)、太烂了。
大多数人盯着“太烂了”去修复,但“还行”才是进步的来源。“太烂了”通常是程序崩溃或技能选错,属于 Bug。而“还行”意味着机制生效了,判断也应用了,但还不够深入。
原则: 建立一个关注“反应平平”的反馈闭环。分析为什么它只是“还行”而不是“太棒了”,然后修改技能来弥补这个差距。
原则 9:编写一次,永久运行
区分 10 倍效率者的准则:
“不允许做一次性工作。如果我让你做某事且它可能再次发生,你必须:先手动做几个例子,展示给我看,如果我批准,就把它固化成一个技能。”
每一项你编写的技能都是对系统的永久升级。当 AI 模型改进时,你的技能会自动变得更强大。这是一种可以累积、不贬值的资产。
原则 10:相同的过程,不同的世界
考虑一个名为 /match(匹配)的技能,它的任务是根据标准对实体进行分组。
- 场景 A(会议分组): 实体 = 1200 名创始人,标准 = 行业相似。
- 场景 B(社交午餐): 实体 = 600 名创始人,标准 = 跨行业新鲜感。
- 场景 C(即时联络): 实体 = 建筑内的当前人员,标准 = 最近邻嵌入。
同一个技能,相同的步骤,完全不同的行为。 这就是让 AI 从好奇心工具变成效能倍增器的杠杆。
结语:固化的纪律
这十条原则指向同一个核心:固化(Codification)。
那些获得 100 倍回报的人并不是更聪明,他们只是不懈地将自己的工作方法、判断标准和识别出的模式固化成“技能”。
一年后,你的技能将在比今天更好的模型上运行。你现在写下的每一项技能,都是对未来能力的投资。
写下食谱,做好这顿饭,分享食谱,然后开始下一道。这就是修行。
夜雨聆风