你的AI助手会自己进化吗?-夜雨聆风

你的AI助手会自己进化吗?

Claude Code 的 Skill 生态正在快速扩张。有10个 Skills 的时候还能手动维护，60+个的时候呢？你总不能一个一个盯着看吧。

传统的 Skill 审查就是查格式：格式对不对、步骤有没有编号、路径能不能访问。但一个格式完美的 Skill，跑出来的效果可能惨不忍睹。

达尔文.skill 干了件事：同时评估结构质量和实际效果，只保留真正有用的修改。

这玩意儿是啥？

一套让 AI Skills 自主进化的系统，灵感来自 Andrej Karpathy 的 autoresearch 项目。

核心逻辑挺简单：

达尔文把同样的思路搬到了 Skill 优化上。进化没有设计师，没有路线图，唯一的规则——活下来的留下，死掉的消失。

作者在手动优化38轮 Skill 后总结的经验：

01 单一可编辑资产

每次只改一个 SKILL.md。早期作者曾同时改了7个 Skill 的触发词，结果有些变好、有些变差，完全没法判断是哪个改动导致的。

02 双重评估

结构评分看「写得对不对」，实测评分看「用起来好不好」。一个 Skill 可以在结构上拿满分，但跑出来一坨。

03 棘轮机制

分数只能升不能降。改完比改前差了？git revert，当这次修改没发生过。

04 独立评分

修改 Skill 的 agent 不能是评分的 agent。自己改完自己评，那不叫评估，叫年终自评里给自己打「超出预期」。

05 人在回路

每个 Skill 优化完后暂停，展示 diff + 分数变化，等用户确认再继续下一个。有些判断，目前还是人比机器靠谱。

总分100，结构方面占60分，效果方面占40分。

结构方面（60分）：

效果方面（40分）：

为什么实测表现权重最高？一个 Skill 可以在结构上拿满分，但跑出来没用。反过来，一个写得粗糙但跑起来特别好用的 Skill，比格式完美但没用的 Skill 有价值得多。

skill-creator 解决的是「从0到1」：输入一个人名，输出一个可运行的思维框架——造人的。

达尔文.skill 解决的是「从1到N」：当你有53个 Skill 的时候，怎么系统性地发现哪些该改、改什么、改了之后有没有变好——让所有人进化的。

如果女娲是一个工厂，达尔文就是这个工厂的质检+持续改进系统。

一行命令安装：

npx skills add alchaincyf/darwin-skill

安装后在 Claude Code 里说「优化所有skills」或「优化某个skill」就行。

觉得有收获？别吝啬，点赞、转发、分享给需要的朋友！

关注我，持续输出 AI 和工具实践干货~