你有没有这种感觉:AI工具刚装上觉得真香,用了一个月发现有些功能根本没用到,还有些用起来总是不对味?
我在workbuddy中安装了很多个 Skill(可以理解成给 AI 加的专业能力包),用了几个月,质量参差不齐。昨天我尝试了一下达尔文.skill对几个常用的skills进行进化,两轮下来,18 个 skill 的平均质量从 52 分提到了 76 分。
分享一下实操过程和踩坑经验。全文约 2500 字,阅读时间 6 分钟,建议收藏备用。达尔文skill的介绍见我公众号分享的上篇文章。
背景先交代
如果你在用 Claude Code、WorkBuddy 这类 AI 工具,skill 就是一个 SKILL.md 文件,告诉 AI 在特定场景下该怎么做。
比如我有个「知乎内容策划」skill,里面写了做什么、怎么做、用户说什么词的时候触发。本质上就是一份结构化的 prompt。
问题在于:大多数 你用的skill 下载下来就不管了。就像代码没有测试、没有 review——写的时候觉得挺好,用起来全是问题。
简单介绍达尔文是什么
达尔文.skill借鉴了 Karpathy 的 autoresearch 思路:评估 → 改进 → 验证 → 只保留改进。
给每个 skill 打 8 个维度、100 分制的分数:
•结构维度(60分):frontmatter 质量、工作流清晰度、边界条件覆盖、检查点设计、指令具体性、资源整合度•效果维度(40分):整体架构 + 实测表现(用测试 prompt 跑一遍看输出)
三个关键机制:
① 八维度评分,不是"感觉好就行" 有些 skill 看着写得密密麻麻很详细,但工作流混乱、缺少边界处理,实际跑出来一塌糊涂。评分能把这些问题量化。
② 棘轮机制,只进不退 改完重新评分,严格更高才保留,否则自动回滚。避免了"改了这个又坏了那个"。
③ 每轮只改一个维度 一次调一个参数,才能明确知道是哪个改动带来了提升。
实操过程
第一轮:写作类 10 个 skill
基线评估出来,平均只有 47 分。
最惨的 ai-content-rewriter(内容改写)只有 16 分——因为它基本是个空壳,没有工作流、没有边界处理、没有输出格式。

最后,AI汇总了这几个skill的三大通病:
达尔文skill的策略是:低于 50 分的重写,50-65 分的补短板,65+ 的微调。
针对这几个skills优化了以下内容:
•合并重叠的改写器和分发器,明确分工•统一去掉 python/bash/API 依赖,全部纯 prompt•每个都补上边界处理和快速模式•补全 frontmatter 触发词
最终结果如下:

以上几个平均分从 47提升到了 73,提升 55%。
第二轮:报告审核类 8 个 skill
报告审核skill 质量底子好(平均 61),但有个大问题:内容重复。
三个 skill 里的"重大技术问题清单"各写了一遍,评价标准还不统一(一个基础分 85,一个 100)。
达尔文skill的处理方式:三个合并成一个,设计双模式——技术报告审核(100分基础)和内审月度考核(85分基础)。

结果:6 个有效 skill 平均 61 → 79,提升 29%。
四个踩坑经验
① 不要追求"更详细"
过度细化会让工作流变复杂,反而降分。关键路径写详细(输入格式、输出模板),非关键路径给原则而不是步骤。
② 合并比拆分更有效
skill 越多,触发冲突概率越高。功能重叠的 skill 合并成一个、用"模式"区分场景,效果更好。
③ 快速模式是必须的
不是每次都需要完整流程。"帮我快速查一下有没有典型错误"——用户不想经过三步确认流程。每个 skill 都该有短路径入口。
④ dry_run 够用了
达尔文支持 full_test(启动子 agent 实测)和 dry_run(模拟推演)。批量优化用 dry_run 效率高 5-10 倍,适合第一轮筛选。后续可以对高分 skill 做 full_test 精调。
最后说几句
达尔文本质上在做一件事:把 skill 优化从"手艺"变成了"工程"。
以前调 skill 就像调菜谱——加点盐试试,没有量化标准,改完不知道变好还是变差。现在有了评分体系、优化循环、棘轮机制,就像给 skill 加上了 CI/CD。
当然,评分客观性取决于你对使用场景的理解深度。分数是工具,不是目的——有些 60 分的 skill 就已经很好用了。
综合数据:优化 18 个,合并废弃 2 个,平均提升 42%。
如果你也在用 AI skill,建议先做个基线评估。你可能会发现,那些你觉得"还挺好"的 skill,实际分数可能出乎意料地低。 mine was 47。🙃
达尔文 skill 开源地址:GitHub 搜 alchaincyf/darwin-skill
如果上不了github,可以联系后台联系我获取。
觉得有收获?点个收藏方便以后对照优化。我会持续分享 AI 工具实操经验,欢迎关注公众号追更。
夜雨聆风