乐于分享
好东西不私藏

3 分钟 AI 学院 | 为什么你的 AI 助手总是「听不懂人话」?聊聊 SKILL 系统

3 分钟 AI 学院 | 为什么你的 AI 助手总是「听不懂人话」?聊聊 SKILL 系统

同样是让 AI 写代码,有人效率提升 100 倍,有人觉得「这玩意儿也就聊聊天」。

差距不在模型,在 SKILL。

先说个场景

你让 AI 帮你修个 bug。

第一版:「帮我修一下登录页面的报错」

AI:「好的,请问具体是什么错误?」

你:「用户说点击登录按钮没反应」

AI:「好的,我来看看……」(5 分钟后)「我找到了一段可能相关的代码,你要不要看看?」

第二版(有 SKILL 系统):「/debug-login 用户反馈:点击登录按钮无响应,浏览器 console 无报错,网络面板显示 API 请求超时」

AI:「收到。已加载登录模块的上下文,正在执行三步诊断:1) 检查按钮事件绑定 2) 检查 API endpoint 配置 3) 检查超时处理逻辑。3 分钟后给你初步结论。」

差距在哪? 第二版背后有一套 SKILL 系统在撑。

SKILL 到底是什么

一句话:SKILL 是用 Markdown 写成的「可复用程序」,它告诉 AI 遇到某类任务时该怎么思考、怎么行动。

关键洞察:这不是 prompt engineering,是 software design——只不过用 Markdown 当编程语言。

一个 Skill 文件的真实样子

# Skill: 深度调研## 触发词/research, /调研,/深度分析## 参数主题:[必填]时间范围:[可选,默认最近 3 个月]输出格式:[报告/摘要/对比表]## 执行流程1. 先加载行业术语表 (terms.md)2. 并行搜索 5 个信息源3. 交叉验证关键数据4. 输出结构化报告5. 附上原始链接

效果:同一个 /research skill,传入「AI Agent 趋势」变成行业分析能力,传入「竞品动态」变成市场监控能力。

用 Garry Tan 的话说:「Every skill you write is a permanent upgrade to your system.」

为什么需要 SKILL 系统

1. 解决「模型失忆」问题

没有 SKILL:每次对话从零开始,你教过它的东西下次还得重新教。

有 SKILL:能力写在文件里,会话结束了能力还在。

案例:有团队用 AI 写代码,前两周效率提升不明显。第三周开始把「代码审查 checklist」「API 设计规范」「测试用例模板」写成 skill 文件。第四周,AI 第一次提交的代码就能通过审查。

2. 解决「上下文爆炸」问题

把 20000 行的 CLAUDE.md 塞给模型,它反而会迷失重点。

有个开源项目用了三级缓存策略:

  • L1:每次加载 200 行核心指针

  • L2:按需查 Skills 索引 + 公理索引

  • L3:匹配后才加载具体 skill 文件

效果是模型只加载当前任务需要的上下文,注意力不被稀释。

3. 解决「结果不可控」问题

模型天生倾向于输出「看似合理、可能错误」的答案。

SKILL 系统的解法:把验收标准写成可执行的检查脚本。

比如一个调研 skill 的验收标准可以是:

  • 输出格式符合 JSON Schema

  • 中文内容无英文术语泄漏

  • 所有数据附有来源链接

  • 关键结论有交叉验证

模型自己跑检查、自己修正,循环到达标为止。

Thin Harness, Fat Skills:架构之争

核心主张:harness(运行模型的那层程序)要薄,skill(能力定义)要厚。

Harness 只做四件事:循环调用模型、读写文件、管理上下文、执行安全策略。

有个项目的反面教材:40 多个工具定义占掉半个上下文窗口,每个 MCP 调用耗时 2-5 秒,相比直接调用 CLI,性能差距 75 倍。

设计原则:把智能向上推到 skills,把执行向下推到确定性工具,中间保持最薄。

两种路线对比很清晰:Fat Harness 每加一个工具就占上下文,工具逻辑嵌在代码里,项目专属;Thin Harness + Fat Skills 则是 skill 文件按需加载,skill 是 Markdown 可读可改,跨项目复用,会写 Markdown 就行。

实战:怎么设计你的第一个 Skill

从高频重复任务开始

别一上来就搞「全能助手」。从你每天都要做的事开始:代码审查、写测试用例、整理会议纪要、生成周报。

有开发者发现每天都要写 PR 描述,于是写了第一个 skill:读取 git diff,识别改动类型(feat/fix/chore/docs),按模板生成描述,附上测试建议。效果是从 15 分钟/次压缩到 30 秒/次。

把隐性知识显性化

你脑子里的「判断标准」是 skill 最该捕捉的东西。

比如资深工程师看代码时会自动检查的那几件事:SQL 注入风险、错误处理是否完整、日志是否结构化、有没有性能陷阱(N+1 查询等)、有没有安全漏洞(硬编码凭证等)。

让 Skill 可组合

好的 skill 像乐高积木,可以拼出复杂工作流。

比如一个「新功能开发工作流」可以依次调用:先调研(/research)、再设计(/design)、然后实现(/implement)、最后测试(/test),每步输出 checkpoint。

几个常见误区

把 skill 写成 SOP:错误写法是「第一步做什么,第二步做什么……」,正确写法是「判断标准是什么,验收条件是什么」。模型不需要步骤,它需要的是判断框架。

追求大而全:一个 skill 文件 2000 行,模型读到后面忘了前面。建议是一个 skill 只做一件事,超过 500 行就拆分。

忽视安全边界:高危操作(删文件、调支付 API、访问数据库)必须有确认环节。比如删除操作需用户二次确认,写操作限制在工作目录内,网络访问需白名单授权。

生态现状

开源项目各有打法:OpenClaw 用 Markdown 文件本地存储,已接入 50+ 消息平台;Claude Code 用 Hooks 配置安全策略;Context Infrastructure 有 40+ skill 文件,带完整的索引和依赖声明。

ClawHub 的经验教训值得注意:OpenClaw 的 ClawHub 几周内从 3000 个 skill 爆发到 17000+,但也暴露了问题——有恶意 skill 混入、凭证存储不安全、质量参差不齐。生态增长快是好事,但安全治理要跟上。

组织影响

有个团队的反馈挺有意思:初级工程师反而适应更快,因为没有传统思维定式,工具使用没有老习惯需要破除。

资深工程师的价值在转移——从「自己写代码」变成「定义什么是好代码」:设计标准作业程序、构建测试支架、在 AI 眼里定义「好」的标准。

未来需要的是π型人才:既懂业务、又懂 AI、还能跨领域行动。核心能力是愿望力——改变世界/自己/公司/团队的主观能动性。AI 无限扩展能力时,主观能动性是无可替代的。

未来会往哪走

几个趋势已经能看到:

Skill 市场:就像 npm 包一样,skill 也会成为可复用的资产。会出现 skill 的「质量认证」机制,类似 npm 的 verified publisher。

Skill 组合语言:现在是用 Markdown 写流程,未来可能有专门的组合语言来做条件加载和序列执行。

Skill 评估体系:怎么判断一个 skill 好不好?任务完成率、平均迭代次数、用户满意度——行业还缺少统一的评估基准。

结语

工具会过气,对工具本质的理解不会。

SKILL 系统的本质不是「让 AI 更听话」,而是把人类的判断框架沉淀下来,让 AI 能够继承和复用

今天你写的第一个 skill,可能是明天你的团队的标准作业程序。

从你每天都在做的那件重复事开始,把它写成 skill。


参考资料

[1] Garry Tan, “Thin Harness, Fat Skills”, X (Twitter), 2026-04-11.

[2] grapeot, “Garry Tan 的 Thin Harness Fat Skills 五个概念拆解以及怎么落地”, 2026-04-14. https://yage.ai/share/thin-harness-fat-skills-20260414.html

[3] AIOS: https://github.com/agiresearch/AIOS

[4] AgenticOS Workshop: https://os-for-agent.github.io

[5] OpenClaw GitHub: https://github.com/openclaw/openclaw

[6] Context Infrastructure: https://github.com/grapeot/context-infrastructure

注:本文核心观点源自内部业务分享和会议交流,部分参考资料来自公开来源。