3 分钟 AI 学院 | 为什么你的 AI 助手总是「听不懂人话」?聊聊 SKILL 系统-夜雨聆风

3 分钟 AI 学院 | 为什么你的 AI 助手总是「听不懂人话」?聊聊 SKILL 系统

同样是让 AI 写代码，有人效率提升 100 倍，有人觉得「这玩意儿也就聊聊天」。

差距不在模型，在 SKILL。

先说个场景

你让 AI 帮你修个 bug。

第一版：「帮我修一下登录页面的报错」

AI：「好的，请问具体是什么错误？」

你：「用户说点击登录按钮没反应」

AI：「好的，我来看看……」（5 分钟后）「我找到了一段可能相关的代码，你要不要看看？」

第二版（有 SKILL 系统）：「/debug-login 用户反馈：点击登录按钮无响应，浏览器 console 无报错，网络面板显示 API 请求超时」

AI：「收到。已加载登录模块的上下文，正在执行三步诊断：1) 检查按钮事件绑定 2) 检查 API endpoint 配置 3) 检查超时处理逻辑。3 分钟后给你初步结论。」

差距在哪？ 第二版背后有一套 SKILL 系统在撑。

SKILL 到底是什么

一句话：SKILL 是用 Markdown 写成的「可复用程序」，它告诉 AI 遇到某类任务时该怎么思考、怎么行动。

关键洞察：这不是 prompt engineering，是 software design——只不过用 Markdown 当编程语言。

一个 Skill 文件的真实样子

# Skill: 深度调研## 触发词/research, /调研，/深度分析## 参数- 主题：[必填]- 时间范围：[可选，默认最近 3 个月]- 输出格式：[报告/摘要/对比表]## 执行流程1. 先加载行业术语表 (terms.md)2. 并行搜索 5 个信息源3. 交叉验证关键数据4. 输出结构化报告5. 附上原始链接

效果：同一个 /research skill，传入「AI Agent 趋势」变成行业分析能力，传入「竞品动态」变成市场监控能力。

用 Garry Tan 的话说：「Every skill you write is a permanent upgrade to your system.」

为什么需要 SKILL 系统

1. 解决「模型失忆」问题

没有 SKILL：每次对话从零开始，你教过它的东西下次还得重新教。

有 SKILL：能力写在文件里，会话结束了能力还在。

案例：有团队用 AI 写代码，前两周效率提升不明显。第三周开始把「代码审查 checklist」「API 设计规范」「测试用例模板」写成 skill 文件。第四周，AI 第一次提交的代码就能通过审查。

2. 解决「上下文爆炸」问题

把 20000 行的 CLAUDE.md 塞给模型，它反而会迷失重点。

有个开源项目用了三级缓存策略：

L1：每次加载 200 行核心指针
L2：按需查 Skills 索引 + 公理索引
L3：匹配后才加载具体 skill 文件

效果是模型只加载当前任务需要的上下文，注意力不被稀释。

3. 解决「结果不可控」问题

模型天生倾向于输出「看似合理、可能错误」的答案。

SKILL 系统的解法：把验收标准写成可执行的检查脚本。

比如一个调研 skill 的验收标准可以是：

输出格式符合 JSON Schema
中文内容无英文术语泄漏
所有数据附有来源链接
关键结论有交叉验证

模型自己跑检查、自己修正，循环到达标为止。

Thin Harness, Fat Skills：架构之争

核心主张：harness（运行模型的那层程序）要薄，skill（能力定义）要厚。

Harness 只做四件事：循环调用模型、读写文件、管理上下文、执行安全策略。

有个项目的反面教材：40 多个工具定义占掉半个上下文窗口，每个 MCP 调用耗时 2-5 秒，相比直接调用 CLI，性能差距 75 倍。

设计原则：把智能向上推到 skills，把执行向下推到确定性工具，中间保持最薄。

两种路线对比很清晰：Fat Harness 每加一个工具就占上下文，工具逻辑嵌在代码里，项目专属；Thin Harness + Fat Skills 则是 skill 文件按需加载，skill 是 Markdown 可读可改，跨项目复用，会写 Markdown 就行。

实战：怎么设计你的第一个 Skill

从高频重复任务开始

别一上来就搞「全能助手」。从你每天都要做的事开始：代码审查、写测试用例、整理会议纪要、生成周报。

有开发者发现每天都要写 PR 描述，于是写了第一个 skill：读取 git diff，识别改动类型（feat/fix/chore/docs），按模板生成描述，附上测试建议。效果是从 15 分钟/次压缩到 30 秒/次。

把隐性知识显性化

你脑子里的「判断标准」是 skill 最该捕捉的东西。

比如资深工程师看代码时会自动检查的那几件事：SQL 注入风险、错误处理是否完整、日志是否结构化、有没有性能陷阱（N+1 查询等）、有没有安全漏洞（硬编码凭证等）。

让 Skill 可组合

好的 skill 像乐高积木，可以拼出复杂工作流。

比如一个「新功能开发工作流」可以依次调用：先调研（/research）、再设计（/design）、然后实现（/implement）、最后测试（/test），每步输出 checkpoint。

几个常见误区

把 skill 写成 SOP：错误写法是「第一步做什么，第二步做什么……」，正确写法是「判断标准是什么，验收条件是什么」。模型不需要步骤，它需要的是判断框架。

追求大而全：一个 skill 文件 2000 行，模型读到后面忘了前面。建议是一个 skill 只做一件事，超过 500 行就拆分。

忽视安全边界：高危操作（删文件、调支付 API、访问数据库）必须有确认环节。比如删除操作需用户二次确认，写操作限制在工作目录内，网络访问需白名单授权。

生态现状

开源项目各有打法：OpenClaw 用 Markdown 文件本地存储，已接入 50+ 消息平台；Claude Code 用 Hooks 配置安全策略；Context Infrastructure 有 40+ skill 文件，带完整的索引和依赖声明。

ClawHub 的经验教训值得注意：OpenClaw 的 ClawHub 几周内从 3000 个 skill 爆发到 17000+，但也暴露了问题——有恶意 skill 混入、凭证存储不安全、质量参差不齐。生态增长快是好事，但安全治理要跟上。

组织影响

有个团队的反馈挺有意思：初级工程师反而适应更快，因为没有传统思维定式，工具使用没有老习惯需要破除。

资深工程师的价值在转移——从「自己写代码」变成「定义什么是好代码」：设计标准作业程序、构建测试支架、在 AI 眼里定义「好」的标准。

未来需要的是π型人才：既懂业务、又懂 AI、还能跨领域行动。核心能力是愿望力——改变世界/自己/公司/团队的主观能动性。AI 无限扩展能力时，主观能动性是无可替代的。

未来会往哪走

几个趋势已经能看到：

Skill 市场：就像 npm 包一样，skill 也会成为可复用的资产。会出现 skill 的「质量认证」机制，类似 npm 的 verified publisher。

Skill 组合语言：现在是用 Markdown 写流程，未来可能有专门的组合语言来做条件加载和序列执行。

Skill 评估体系：怎么判断一个 skill 好不好？任务完成率、平均迭代次数、用户满意度——行业还缺少统一的评估基准。

结语

工具会过气，对工具本质的理解不会。

SKILL 系统的本质不是「让 AI 更听话」，而是把人类的判断框架沉淀下来，让 AI 能够继承和复用。

今天你写的第一个 skill，可能是明天你的团队的标准作业程序。

从你每天都在做的那件重复事开始，把它写成 skill。

参考资料

[1] Garry Tan, “Thin Harness, Fat Skills”, X (Twitter), 2026-04-11.

[2] grapeot, “Garry Tan 的 Thin Harness Fat Skills 五个概念拆解以及怎么落地”, 2026-04-14. https://yage.ai/share/thin-harness-fat-skills-20260414.html

[3] AIOS: https://github.com/agiresearch/AIOS

[4] AgenticOS Workshop: https://os-for-agent.github.io

[5] OpenClaw GitHub: https://github.com/openclaw/openclaw

[6] Context Infrastructure: https://github.com/grapeot/context-infrastructure

注：本文核心观点源自内部业务分享和会议交流，部分参考资料来自公开来源。