AI Agent 会自己进化了:Karpathy 的灵感,被一个中国人做成了 Skill-夜雨聆风

AI Agent 会自己进化了:Karpathy 的灵感,被一个中国人做成了 Skill

AI Agent 会自己进化了：Karpathy 的灵感，被一个中国人做成了 Skill

🎯 核心观点

Karpathy autoresearch 71k星灵感启发
达尔文.skill 让 Skill 自动评估、改进、保留有效修改
五条原则 + 8维度评估 + 棘轮机制 + 人在回路
配合女娲.skill：先造人，再进化
AI 生成内容不稀缺，稀缺的是判断力

📖 深度解读

草履虫变成人，不需要设计师。只需要时间 + 选择。

今年 3 月，Karpathy（OpenAI 联合创始人、前特斯拉 AI 总监）开源了一个叫 autoresearch 的项目。

不到一个月，GitHub 上 71,000+ ⭐。

它做的事情用一句话就能说清楚：让 AI 自己跑实验、自己评估结果、只保留有改进的修改。

具体来说：AI Agent 自动修改训练代码，跑 5 分钟看 loss 有没有下降——降了就 git commit 保留，没降就 git revert 回滚。每小时大约 12 个实验，一晚上能跑 100 个。

Shopify 的 CEO 拿它优化模板引擎，性能提升了 53%。

看到这个项目的时候我愣了一下。

这个模式，不只能用来训练模型。它能用来优化任何东西。

一、53 个 Skill 的维护噩梦

一个叫花叔（@alchaincyf）的开发者，一口气做了 53 个 Skill。然后他遇到一个问题：过了 50 个之后，手动维护崩。

靠手感维护 10 个 Skill 没问题。50 个？不可能。

这时候他刷到了 Karpathy 的 autoresearch。他做一个很多人没想到但事后觉得”对啊就该这么做”的决定：把 autoresearch 的思路搬过来，让 Skill 自己进化。

他给这个项目取名叫 达尔文（darwin-skill）。

因为自然界的进化论本质上就是一个棘轮：随机变异产生候选方案，自然选择保留有利的、淘汰有害。时间足够长，草履虫就变成了人。

进化没有设计师，没有路线图。它唯一的规则就是：活下来的留下，死掉消失。

二、达尔文做了什么？

darwin-skill 的核心逻辑和 autoresearch 完全一样，只是换了优化对象： autoresearch 优化的是训练代码，达尔文优化是 SKILL.md。

五条核心原则

第一条：单一可编辑资产。 每次只改一个 SKILL.md。这其实是科学实验的最基本原则——控制变量。

第二条：双重评估。 结构评分看「写得对不对」，实测评分看「用起来好不好」。一个 Skill 可以在结构上拿满分，但跑出来一坨。

第三条：棘轮机制。 分数只能升不能降。 改完比改前差了？git revert，当这次修改没发生过。机器的回滚比人果断一万倍。

第四条：独立评分。 修改 Skill 的 Agent 不能是评分的 Agent。自己改完自己评，那不叫评估，叫年终自评里给自己打”超出预期”。

第五条：人在回路。 每个 Skill 优化完后暂停，展示 diff + 分数变化，等用户确认再继续下一个。花叔最在意的一句话：AI 生成内容不稀缺，稀缺的是判断力。

三、8 维度评估体系，100 分制

达尔文不是简单地给 Skill 打个”好/不好”的标签。它建立了一套完整评估体系：

总分 100 分，分为结构维度（60 分）和效果维度（40 分）。 其中 实测表现权重最高（25 分）。Skill 写得再漂亮，跑出来效果不好就是零。

这恰恰是大多数 Skill 项目的通病——重文档、轻效果。

四、优化循环：5 个阶段

达尔文的优化不是一股脑跑到底。它分为 5 个阶段，每个阶段内自主运行，阶段之间暂停等人类确认：

评估 — 给所有 Skill 打分，找出短板
改进 — 针对得分最低的维度，生成具体改进方案
测试 — 子 Agent 独立重新评分
决策 — 新分 > 旧分 → 保留；否则 → git revert
确认 — 每个 Skill 完成后暂停，展示 diff + 分数变化，等用户确认
这不就是进化论的精髓吗？小步变异 + 严格选择 = 持续进步。

五、先造人，再进化

说到达尔文，不得不提花叔的另一个项目——女娲（nuwa-skill）。

GitHub 上 13,300+ ⭐，2,200+ Fork。女娲做的事情更惊人：把任何人的思维方式蒸馏成一个可运行的 AI Skill。 不是让 AI 学一个人说话。而是提炼他们怎么想问题。

使用方法极简：

npx skills add alchaincyf/nuwa-skill

装完，在 Claude Code 里说一句：蒸馏芒格，女娲自动完成：深度调研 → 思维框架提炼 → 生成可运行的人物 Skill。

有人用女娲蒸馏了一百多位古今中外的思想家——孔子、老子、苏格拉底、尼采、巴菲特、黄仁勋、张一鸣……全部开源。

一手女娲，一手达尔文。先造人，后进化。

六、怎么用？

如果你也想试试达尔文：

npx skills add alchaincyf/darwin-skill

然后在 Claude Code 里输入：评估所有 skills、优化 huashu-slides 这个 skill、或 优化所有 skills（推荐首次使用）。

GitHub 地址： github.com/alchaincyf/darwin-skill

最后

花叔说了一句话，我觉得值得所有人记住：

AI 生成内容不稀缺，稀缺的是判断力。知道该做什么、不该做什么，这件事暂时还得靠人。

达尔文不是要取代人。它是要让人从重复的维护工作中解放出来，把精力放在重要事情上——判断、决策、创造。

这才是 AI 时代人类该干的事。

风清扬 ⚔️ 2026年4月21日于武汉一人有限公司

💭 思考与启发

技术的本质是服务于人。在追逐热点的同时，别忘了思考它真正带来价值。

📌 关注我们

TokenDancing | AI 深度解读

深度思考，洞见未来。

👉 点击上方蓝字「TokenDancing」关注我们
👉 回复「加群」加入 AI 爱好者交流群