你的AI团队缺的不是Skill,是一个Skills系统,一篇讲清如何从零构建Skills体系

上周帮一个团队做 AI 转型诊断，碰到一个有意思的问题。

他们团队 AI 渗透率很高。代码、文档、设计方案，样样都有 AI 参与。但问到「你们团队积累了多少个可复用的 Skills」，对面沉默了。

这个场景太常见了。排除组织内部因个人怕AI提效导致被裁因素外，大多数团队都在用，但并没有真正的成体系、成规模的用，每个人都觉得有用，但仍觉得AI 用不好是自己没用到最顶级的模型、Prompt 不够巧、Skills没找到合适的。但 Google Cloud 去年有个数据：89% 的团队在建 Skills，真正被复用的只有 12%。

根子不在 Skills 本身，在于没有一套让 Skills 能活起来的机制。

这篇文章给你我得思考：1、Agent Skills到底是什么？如何被调用、为什么会调用失败2、Agent Skills应该如何构建、评估、优化3、Agent Skills到底如何管？如何复用

1、Agent Skills到底是什么？

Skills不是Prompt的提示词，大部分人的认为一个简单的SKILL.md就是一个范式的提示词的升级，而Skills的专业定义是一种用于扩展 AI Agent 能力的轻量级开放规范。如果用更容易理解的话来说：Agent Skill = AI 的专业操作手册它不仅告诉LLM，做什么，还会告诉模型：

什么时候做
怎么做
使用什么工具
如何验证结果
失败后如何修复一个Skills的标准结构包含：

1.1 Skills如何被调用

Skills在如何被调用这块单独写，是因为大部分人知道渐进式加载的设计思想，但使用过程中以为Skils就是被LLM所调用，或者 Skill=关键词出发其实按照Anthropic 提出 Skill Runtime 的核心思路来说，应该理解为：“模型自主决策，按需渐进式加载”

1.2.为什么会调用失败

使用Skills经常会出现LLM不主动调用Skills、声明式的调用Skill仍出现不按预置流程来执行等等问题主要原因有：

description写的太差；LLM并不认为当前语义被命中或值得被调用
知识库太大，导致上下文爆炸，模型注意力崩坏；
skill描述太泛、比如全栈开发，啥都懂，啥都会，肯定会被专精的Skills描述所替代
skills冲突；类似的Skills如果不在会话过程中显性调用，肯定不会被模型正确使用所以在不同的Agents对于一些主流程我会采用显性调用的方式来使用skills

不管谁是个人还是团队使用skills都存在这些现象，只是使用习惯不一样、规范不一样、提示词不一样大家反馈也不一样，在团队内才会出现使用率高、但未形成资产。Skills 系统的构建需要积累机制、索引、复用流程。团队里谁创的 Skill 其他人能直接用，经验不跟着项目结束而消失。这就需要管理者做好AI资产的治理

2.如何构建一个优秀的Skills

大部分团队都使用skill-creator构建过自己的Skills，足够简单，但这个Skills背后的构建逻辑、设计模式并未了解，也不太清楚如何评估自己的Skills是否优秀，应该如何优化，如何进化，形成自我迭代闭环。

2.1 Google的五种Skills设计模式

Google Cloud 发布的 ADK Agent 开发规范里，定义了 5 种经过实战验证的 Skills 设计模式：

工具包装器：为特定库或框架封装按需上下文，AI 按条件触发才加载。团队内部的编码约定，打包成 Skill，需要时触发，比塞进系统提示词灵活得多。

生成器：用模板和样式指南协调填空，确保每次输出结构一致。API 文档生成、项目架子搭建，用这个最顺手。

审核员：把检查清单和评分逻辑分离，输出结构化、带严重程度分组的评审结果。AI 代码审查变得可量化、可复现，而不是每次靠人肉检查。

反转：让 Agent 扮演面试官，强制先收集需求再行动。解决 AI 太急着给答案、还没理解清楚就开始干活的问题。

流水线：通过检查点强制执行多步骤工作流，门控条件确保每步完成才进入下一阶段。任何想跳过步骤的行为，被物理拦截。

这五种可以单独用，也可以组合。Generator 开头加个 Inversion 收集缺失变量，Pipeline 末尾加个 Reviewer 做二次检查。

2.2 Skills创建、评估、迭代工具对比

下面是Skill-creator、Darwin-skill、writing-skills和find-skills、self-improving-agent的对部分析图，以供参考

Skill-creator主打评估驱动优化，通过Grader、 Comparator、 Analyzer不断优化
Darwin-skill主打自进化，评估 → 自动优化 → A/B测试 → 保留优胜版本
writing-skills采用TDD的方式构建Skills
Self-Improving Agent常用在openclaw等龙虾类Agent中用于自我进化，主打总结经验 → 生成新 Skill → 写回知识库
Find-skills主打在Skills市场中进行Skills检索，还有类似的Skills直接在github中进行检索，并将整个仓库转变为一个工具类Skills来解决问题
2.3 Skills管理工具
对于整个Skills的管理，之前也分享过个人管理工具SkillsManager和团队管理工具Skillshub，这个就不赘述了

3.Skills管理实践分享

我见过的大多数团队还停在 L0：没有共享规范，每人一套，AI 输出靠个人运气。

少数到了 L1：有人开始积累 Skill，但需要主动搜索，没有索引。

能到 L2 的已经很少了：有统一的设计模式，有质量门禁，Skill 积累变成可管理、可迭代的系统工程。

到了 L3 的团队，凤毛麟角：Skill 按需触发，跨团队复用，AI 自动匹配场景，能力持续演进。

从 L1 到 L2 是最难的一步。需要有人把个人经验抽象成可复用的资产，担起这个过程中的管理成本。但回报也最大。一旦 L2 跑通，团队 AI 代码率从 30% 跳到 70%，不需要换模型，是经验变厚了。

我是怎么做的。

三个月前开始带团队接 AI，做的第一件事不是选模型，是建 Skills 系统。

第一步，找一个被 AI 坑过不止一次的场景。我们团队最多的投诉是：AI 写的 SQL 总是少考虑边界情况，每次都要人肉检查。与其每次骂 AI，不如把「SQL 边界检查规范」封装成第一个 Skill。

第二步，Skill 格式是：触发条件 + 参考资料 + 指令模板。触发条件写「什么时候用」，不是「这个 Skill 是关于什么的」。参考资料是团队认可的最佳实践，不是网上抄来的教程。指令模板是 AI 能直接执行的，不是给人类看的说明书。

第三步，让 Skill 被用起来。用 Skillshub 管理所有 Skill，每个有索引、有标签、有使用记录。每周 team review：这个 Skill 被用了吗？有用吗？需要更新吗？

三个月下来，积累了 23 个 Skill，覆盖 SQL 编写、代码审查、接口设计、测试用例生成这些高频场景。AI 代码率从 31% 升到了 67%。

不是模型变强了，是团队的经验变厚了。

Skills 系统不是设计出来的，是长出来的。

给它生长的土壤：一个统一格式让经验能积累，一个索引机制让 Skill 能被找到，一个使用循环让资产能更新。

从今天开始，找一个你们团队被 AI 坑过不止一次的场景，把「正确答案」封装成第一个 Skill。

不需要完美。能跑通从创建到复用的全流程，就够了。

一个AI瞎捣鼓的架构师，把团队转型过程中踩过的坑分享给你，欢迎大家评论区讨论

参考资料：

Google Cloud Tech：

https://x.com/GoogleCloudTech/status/2033953579824758855

Anthropic Skill Best Practices：

https://platform.claude.com/docs/en/agents-and-tools/agent-skills/best-practices

arvindand/agent-skills最佳实践：

https://github.com/arvindand/agent-skills

#Agent #Skills #Google #ADK