你的AI助手会自己进化吗?

Claude Code 的 Skill 生态正在快速扩张。有10个 Skills 的时候还能手动维护,60+个的时候呢?你总不能一个一个盯着看吧。
传统的 Skill 审查就是查格式:格式对不对、步骤有没有编号、路径能不能访问。但一个格式完美的 Skill,跑出来的效果可能惨不忍睹。
达尔文.skill 干了件事:同时评估结构质量和实际效果,只保留真正有用的修改。
这玩意儿是啥?
一套让 AI Skills 自主进化的系统,灵感来自 Andrej Karpathy 的 autoresearch 项目。
核心逻辑挺简单:
- autoresearch 里每一次实验是一次「随机变异」
- loss 下降就是「活下来」
- git revert 就是「被自然淘汰」
达尔文把同样的思路搬到了 Skill 优化上。进化没有设计师,没有路线图,唯一的规则——活下来的留下,死掉的消失。
五条踩坑踩出来的原则
作者在手动优化38轮 Skill 后总结的经验:
01 单一可编辑资产
每次只改一个 SKILL.md。早期作者曾同时改了7个 Skill 的触发词,结果有些变好、有些变差,完全没法判断是哪个改动导致的。
02 双重评估
结构评分看「写得对不对」,实测评分看「用起来好不好」。一个 Skill 可以在结构上拿满分,但跑出来一坨。
03 棘轮机制
分数只能升不能降。改完比改前差了?git revert,当这次修改没发生过。
04 独立评分
修改 Skill 的 agent 不能是评分的 agent。自己改完自己评,那不叫评估,叫年终自评里给自己打「超出预期」。
05 人在回路
每个 Skill 优化完后暂停,展示 diff + 分数变化,等用户确认再继续下一个。有些判断,目前还是人比机器靠谱。
8个打分项
总分100,结构方面占60分,效果方面占40分。
结构方面(60分):
- Frontmatter 规范:8分
- 工作流步骤清晰:15分
- 异常处理:10分
- 用户确认机制:7分
- 指令具体可执行:15分
- 文件路径有效:5分
效果方面(40分):
- 整体架构合理:15分
- 实测表现:25分(权重最高!)
为什么实测表现权重最高?一个 Skill 可以在结构上拿满分,但跑出来没用。反过来,一个写得粗糙但跑起来特别好用的 Skill,比格式完美但没用的 Skill 有价值得多。
它解决什么问题?
skill-creator 解决的是「从0到1」:输入一个人名,输出一个可运行的思维框架——造人的。
达尔文.skill 解决的是「从1到N」:当你有53个 Skill 的时候,怎么系统性地发现哪些该改、改什么、改了之后有没有变好——让所有人进化的。
如果女娲是一个工厂,达尔文就是这个工厂的质检+持续改进系统。
怎么用?
一行命令安装:
npx skills add alchaincyf/darwin-skill
安装后在 Claude Code 里说「优化所有skills」或「优化某个skill」就行。
觉得有收获?别吝啬,点赞、转发、分享给需要的朋友!
关注我,持续输出 AI 和工具实践干货~
© AI新智讯
夜雨聆风