乐于分享
好东西不私藏

你的AI助手会自己进化吗?

你的AI助手会自己进化吗?

Claude Code 的 Skill 生态正在快速扩张。有10个 Skills 的时候还能手动维护,60+个的时候呢?你总不能一个一个盯着看吧。

传统的 Skill 审查就是查格式:格式对不对、步骤有没有编号、路径能不能访问。但一个格式完美的 Skill,跑出来的效果可能惨不忍睹。

达尔文.skill 干了件事:同时评估结构质量和实际效果,只保留真正有用的修改。

这玩意儿是啥?

一套让 AI Skills 自主进化的系统,灵感来自 Andrej Karpathy 的 autoresearch 项目。

核心逻辑挺简单:

  • autoresearch 里每一次实验是一次「随机变异」
  • loss 下降就是「活下来」
  • git revert 就是「被自然淘汰」

达尔文把同样的思路搬到了 Skill 优化上。进化没有设计师,没有路线图,唯一的规则——活下来的留下,死掉的消失。

五条踩坑踩出来的原则

作者在手动优化38轮 Skill 后总结的经验:

01 单一可编辑资产

每次只改一个 SKILL.md。早期作者曾同时改了7个 Skill 的触发词,结果有些变好、有些变差,完全没法判断是哪个改动导致的。

02 双重评估

结构评分看「写得对不对」,实测评分看「用起来好不好」。一个 Skill 可以在结构上拿满分,但跑出来一坨。

03 棘轮机制

分数只能升不能降。改完比改前差了?git revert,当这次修改没发生过。

04 独立评分

修改 Skill 的 agent 不能是评分的 agent。自己改完自己评,那不叫评估,叫年终自评里给自己打「超出预期」。

05 人在回路

每个 Skill 优化完后暂停,展示 diff + 分数变化,等用户确认再继续下一个。有些判断,目前还是人比机器靠谱。

8个打分项

总分100,结构方面占60分,效果方面占40分。

结构方面(60分):

  • Frontmatter 规范:8分
  • 工作流步骤清晰:15分
  • 异常处理:10分
  • 用户确认机制:7分
  • 指令具体可执行:15分
  • 文件路径有效:5分

效果方面(40分):

  • 整体架构合理:15分
  • 实测表现:25分(权重最高!)

为什么实测表现权重最高?一个 Skill 可以在结构上拿满分,但跑出来没用。反过来,一个写得粗糙但跑起来特别好用的 Skill,比格式完美但没用的 Skill 有价值得多。

它解决什么问题?

skill-creator 解决的是「从0到1」:输入一个人名,输出一个可运行的思维框架——造人的。

达尔文.skill 解决的是「从1到N」:当你有53个 Skill 的时候,怎么系统性地发现哪些该改、改什么、改了之后有没有变好——让所有人进化的。

如果女娲是一个工厂,达尔文就是这个工厂的质检+持续改进系统。

怎么用?

一行命令安装:

npx skills add alchaincyf/darwin-skill

安装后在 Claude Code 里说「优化所有skills」或「优化某个skill」就行。


觉得有收获?别吝啬,点赞、转发、分享给需要的朋友!

关注我,持续输出 AI 和工具实践干货~

© AI新智讯