Anthropic开源插件给企业各部门的Agent打了个样

Anthropic 最近在 GitHub 上开源了 Knowledge Work Plugins，11 个插件，覆盖了销售、客服、法务、财务、产品管理。每个插件都是一个"岗位培训包"——把某个岗位的最佳实践写成 Markdown 技能文件，让 Claude 像新员工一样学习后上岗。

我花了一整天翻完这个仓库，核心发现只有一个：Anthropic 不是在卖工具，是在做"AI 同事的岗位培训体系"。而大多数企业，连新员工培训都没做好，就想让 AI 直接顶岗。

这篇文章，我想记录一下：怎么把一个反复写的 Prompt，变成一个可复用的"乐高插件"。

第一步：生成——定义边界，不是堆砌功能

我把一个 Prompt 变成插件，第一步不是写代码，是写边界。

Anthropic 的 customer-support 插件给我很大启发。这个插件定义了 5 个技能：ticket-triage（工单分类）、draft-response（起草回复）、escalate（升级管理）、kb-article（知识库建设）、customer-research（客户研究）。每个技能对应一个明确的问题：谁触发？什么时候触发？不解决什么？

举个例子，ticket-triage 的边界是这样的：

• 谁触发：新工单进来时自动触发
• 什么时候触发：工单创建后，没有人类客服看过之前
• 不解决什么：不直接回复客户，只分类和标记；不处理没有工单号的消息；不覆盖 P0（全系统瘫痪）的工单，那个直接跳人工

这个边界定义清楚之后，Claude 就不会"越权"。我见过太多 Prompt 写着写着变成了"请你帮我分析、总结、回复、归档、顺便写个周报"——AI 什么都做，什么都做不好。

我自己写插件的时候，第一步永远是三句话：

1. 这个技能解决什么问题？
2. 用户输入什么？输出什么？
3. 明确说"不处理什么"。

比如我写一个"月底关账"插件，边界是：

• 输入：月份、需要生成的分录类型（AP accrual、prepaid amortization、depreciation）
• 输出：标准格式的日记账分录，含借贷明细和支持文档索引
• 不处理：不生成最终会计凭证（需要会计复核）；不处理超过 1000 行的明细；不做税务调整

边界越清楚，AI 越靠谱。不是让 AI 变聪明，是给 AI 画个圈，让它在圈里发挥。

第二步：迭代——从"能跑"到"好跑"

插件的 v0.1 版本，能跑通一个场景就够了。但大部分团队的问题不是没做 v0.1，而是没做 v0.2。

Anthropic 的 small-business 插件有一个设计特别妙：审批节点（checkpoint）。AI 在关键动作前会暂停，等用户确认后再执行。比如 cash-flow-snapshot 技能，Claude 拉取数据、计算预测、生成 XLSX，但在最后一步会停下来问："这是基于截至今天的应收应付计算的，请确认数据是否完整？"

这个设计看起来是"降低效率"，实际上是"增加信任"。没有审批节点的 AI，就像没有刹车的车——速度快，但没人敢坐。

我自己的迭代路径一般只走两步：从"能跑"到"敢用"。

v0.1：能跑通一个场景。 一个输入，一个输出，不需要边界。能跑就是胜利。

v0.2：敢给同事用。 加错误处理、加审批节点、加安全加固。我团队里的插件，如果没有 checkpoint，同事宁可不用。有了 checkpoint，哪怕慢一点，大家也敢试。

迭代不是加功能，是减风险。不是让 AI 变快，是让团队敢用。

第三步：优化——不是写得多，是写得准

我踩过这个坑。一开始写 Prompt，总觉得写越长，AI 越懂。结果是，写得不准，200 行和 20 行一样烂。

Anthropic 的插件优化给了我两个直接的经验。

第一个是 Description 要具体到工具名。

差的描述："处理 Excel 文件。"
好的描述："使用 OfficeCLI 命令行工具操作 Excel 电子表格。当用户提到 Excel、xlsx、表格时触发。不处理 VBA 宏、超过 100MB 的文件、加密的文档。"

具体到什么工具、什么触发词、什么不处理，Claude 的触发精度会高很多。我在 enterprise-search 插件里看到类似的写法："跨 Slack、Notion、Guru、Jira 搜索。当用户问'谁最懂 XX'、'我们什么时候决定用 XX'、'Project Aurora 的 API 在哪'时触发。不处理需要实时数据的问题（如'今天股价多少'）。"

第二个是 Few-Shot 示例要覆盖三种情况。

每个技能至少配三个示例：

• 正常情况：标准输入，标准输出
• 边界情况：输入缺字段，输出怎么处理
• 错误情况：输入完全不对，输出怎么拒绝

customer-support 插件的 ticket-triage 技能，示例里就有一个边界 case：工单描述是空的，只有标题。Claude 的输出是："标记为'信息不完整'，路由到 Tier 1，附上回复模板：'您好，为了更快帮您解决问题，请补充以下信息...'"

还有一个我没想到，但 Anthropic 做了：渐进式披露（Progressive Disclosure）。每个 SKILL.md 主体控制在 3000 字以内，只放核心指令。详细内容放在 references/ 目录，比如 gotchas.md（常见坑）、worked-example.md（完整案例）。需要时 Claude 才会读取。

这解决了两个痛点：一是不超过上下文窗口；二是业务专家可以只读主文件，不用在 2 万字里找逻辑。我试过把一个 8000 字的技能文件拆成主文件 + references，触发准确率从 60% 提升到 85%。

第四步：评测——数据说好，不是感觉好

插件写好了，怎么知道好不好？靠感觉？不行。靠"我用了觉得不错"？更不行。

Anthropic 的评测方法很直接，分两层。

先测触发。20 个正例（应该触发这个技能），20 个反例（不应该触发）。看 Claude 的路由准确率。

比如 enterprise-search 插件的 search 技能。正例："谁最懂 Kubernetes 架构？"、"我们什么时候决定用 Postgres 的？"、"Project Aurora 的 API 重新设计决定在哪？"反例："帮我写一封辞职信"、"今天比特币价格多少？"、"总结一下 2024 年 NBA 总决赛"。

再测效果。5 个测试用例，看输出质量。

enterprise-search 有一个很直观的效果对比：之前工程师找"Project Aurora 的 API 重新设计决定在哪"，需要在 Slack、邮件、Google Drive 里翻 15 分钟。用了插件之后，Claude 30 秒内给出综合答案："团队在 3 月 3 日决定用 REST 替代 GraphQL，Sarah 3 月 4 日邮件确认了时间线，设计文档 3 月 5 日更新。"

15 分钟到 30 秒。这是数据，不是感觉。

我自己做评测的时候，会记录三个指标：

1. 触发准确率：100 个查询里，有多少路由到了对的技能？
2. 输出完整度：该包含的信息，有没有漏？
3. 人工修正率：Claude 的输出，人类需要改多少？

有一个插件我迭代了三个版本，触发准确率从 45% 到 72% 到 89%。不是因为我 Prompt 写得更好，是因为我在 v0.2 的时候加了 10 个反例，让 Claude 知道"什么情况下不该触发这个技能"。

评测不是面子工程，是下一轮迭代的输入。没有评测数据，迭代就是瞎改。

第五步：治理——插件不是写完就完，是养一个习惯

插件上线只是开始。团队里有人用，有人不用，有人改，有人乱改——没有治理，你三个月前写的 Prompt，三个月后没人敢用。

你可能觉得"治理"是工程师的事。但换个说法：没有治理，你三个月前写的 Prompt，三个月后没人敢用。因为没人知道它现在还是不是好的，改了什么，能不能放心给新人。

Anthropic 的治理思路藏得很深，但很有价值。

版本控制是第一条。语义化版本 + CHANGELOG。每个插件的 plugin.json 里有版本号，README 里有变更记录。这不是工程师的洁癖，是团队的信任基础。销售主管看到"v1.2.0：调整了 call-prep 的优先级权重"，就知道为什么 AI 最近的表现变了。

质量门禁是第二条。改动前的检查清单。插件是 Markdown 文件，意味着任何人都能改。但改之前要过检查：边界定义是否清晰？Few-Shot 示例是否覆盖了三种情况？references/ 目录是否更新？MCP 配置是否匹配？

第三条我最看重：工具抽象层。

Anthropic 的每个插件都通过 .mcp.json 连接外部工具，但插件不绑定具体工具，而是绑定工具类别。用 ~~project tracker 而不是 ~~Jira，用 ~~chat 而不是 ~~Slack。企业可以替换 .mcp.json 里的具体 URL，不用改任何技能文件。

这相当于给 AI 工作流做了一个"工具抽象层"。今天用 Jira 的公司，明天换成 Linear，只需要改配置，不需要重写技能。这个设计解决了企业最大的顾虑：我不想被任何一家 AI 公司或工具商绑定。

我在自己团队里推插件的时候，治理规则就三条：

1. 谁用，谁反馈。每个插件配一个反馈渠道，用的人每周说一次"哪里好，哪里坑"。
2. 谁改，谁 review。业务专家可以改技能文件，但改完必须有人 review，通过才能合并。
3. 版本锁定。生产环境用固定版本，升级必须测试通过。不能随便"先上线再说"。

插件治理不是技术问题，是组织习惯问题。技术团队习惯了版本控制，但业务团队不习惯。需要一个懂技术又懂业务的人做桥梁——这个人通常就是 Tech Lead 或者架构师。

一个立即可做的行动

如果你现在有一个反复写的 Prompt——比如"帮我分析客户"、"帮我分类工单"、"帮我写周报"——试着把它转成插件。

不用一次写完美。先写 v0.1：一个 SKILL.md，三句话边界，三个示例。能跑通一个场景，就是胜利。

然后给你的同事用。收集反馈。迭代到 v0.2。再评测。再迭代。

Anthropic 的 Knowledge Work Plugins 证明了：AI 的价值不在"更聪明的模型"，而在"把最佳实践变成可复用的乐高积木"。模型会越来越便宜，但岗位知识会越来越贵。谁先把自己的知识编码成插件，谁就能让 AI 变成真正的智能同事，而不是高级搜索框。

Anthropic 的 Knowledge Work Plugins 覆盖了 11+ 插件，覆盖知识工作方方面面。下面三个场景，是我在调研中觉得最容易落地、但最被忽略的。

场景一：客户支持（从"人找工单"到"工单找人"）

客服团队最大的痛点不是回复不够快，是工单分错人。P2 的紧急问题被分到 Tier 1 的新手手里，P4 的咨询被 Tier 3 的资深工程师浪费 20 分钟。

customer-support 插件的 triage 技能设计了一个简单但有效的框架：

• 读工单描述 → 匹配问题分类法（9 种类型）→ 评估优先级（P1-P4）→ 路由到对应团队
• 同时检查知识库：有没有已解决的类似案例？有的话附上 workaround
• 最终输出：分类标签 + 路由建议 + 知识库引用 + 首条回复草稿

实现路径：先定义你企业的工单分类法（9 种可以照搬，也可以改成 5 种），然后给每个类别配一个"首条回复模板"。不需要连 CRM 系统——先让 Claude 读工单文本，人工确认路由结果，跑两周数据再决定是否自动化。

场景二：企业搜索（从"考古式翻找"到"30秒回答"）

200 人的团队，员工平均每天花 1.5 小时在不同工具里找信息。休假 3 天回来，500 条未读消息，不知道从哪里开始补。

enterprise-search 插件的核心思路是：一句话提问，跨源综合。比如工程师问"Project Aurora 的 API 重新设计决定在哪？"Claude 同时搜索 Slack 周二的讨论、邮件里的确认、Google Drive 里的更新文档，30 秒内给出综合答案。

实现路径：先连接 2-3 个最常用的工具（通常是 Slack + 文档系统）。定义 3 类高频问题："决策在哪？"（跨时间线追踪）、"谁最懂？"（跨作者识别）、"最新状态？"（跨版本对比）。每类问题配 5 个正例 + 5 个反例做路由测试。效果：信息搜索时间从 15 分钟降到 30 秒。

场景三：数据分析（从"分析师排队"到"业务自助"）

业务团队每天有 20 个"帮我查一下"的需求，分析师队列永远排 3 天。data 插件的解法不是替代分析师，是让 80% 的简单查询自助化。

data 插件的 analyze 技能：自然语言提问 → 生成 SQL → 执行 → 可视化。业务团队问"上季度各渠道收入占比"，Claude 从 Snowflake 拉数据，跑 query，输出带图表的 HTML 仪表板。关键设计：validate 技能在共享前自动 QA——检查方法论、数据范围、计算逻辑。

实现路径：先锁定 5 个最高频的分析问题（通常是收入、留存、转化率、渠道、产品）。用 CSV 而不是数据仓库起步——让 Claude 读 CSV，生成分析，业务团队确认逻辑。验证准确率超过 90% 后，再连数据仓库。注意：validate 技能必须保留，错误的数据分析比没有分析更可怕。

一个 AI 瞎捣鼓的架构师，把团队转型过程中踩过的坑分享给你，欢迎大家评论区讨论