AI Agent 会自己进化了:Karpathy 的灵感,被一个中国人做成了 Skill
AI Agent 会自己进化了:Karpathy 的灵感,被一个中国人做成了 Skill

🎯 核心观点
- Karpathy autoresearch 71k星灵感启发
- 达尔文.skill 让 Skill 自动评估、改进、保留有效修改
- 五条原则 + 8维度评估 + 棘轮机制 + 人在回路
- 配合女娲.skill:先造人,再进化
- AI 生成内容不稀缺,稀缺的是判断力
📖 深度解读
草履虫变成人,不需要设计师。只需要时间 + 选择。
今年 3 月,Karpathy(OpenAI 联合创始人、前特斯拉 AI 总监)开源了一个叫 autoresearch 的项目。
不到一个月,GitHub 上 71,000+ ⭐。
它做的事情用一句话就能说清楚:让 AI 自己跑实验、自己评估结果、只保留有改进的修改。
具体来说:AI Agent 自动修改训练代码,跑 5 分钟看 loss 有没有下降——降了就 git commit 保留,没降就 git revert 回滚。每小时大约 12 个实验,一晚上能跑 100 个。
Shopify 的 CEO 拿它优化模板引擎,性能提升了 53%。
看到这个项目的时候我愣了一下。
这个模式,不只能用来训练模型。它能用来优化任何东西。
一、53 个 Skill 的维护噩梦
一个叫花叔(@alchaincyf)的开发者,一口气做了 53 个 Skill。然后他遇到一个问题:过了 50 个之后,手动维护崩。
靠手感维护 10 个 Skill 没问题。50 个?不可能。
这时候他刷到了 Karpathy 的 autoresearch。他做一个很多人没想到但事后觉得”对啊就该这么做”的决定:把 autoresearch 的思路搬过来,让 Skill 自己进化。
他给这个项目取名叫 达尔文(darwin-skill)。
因为自然界的进化论本质上就是一个棘轮:随机变异产生候选方案,自然选择保留有利的、淘汰有害。时间足够长,草履虫就变成了人。
进化没有设计师,没有路线图。它唯一的规则就是:活下来的留下,死掉消失。
二、达尔文做了什么?
darwin-skill 的核心逻辑和 autoresearch 完全一样,只是换了优化对象: autoresearch 优化的是训练代码,达尔文优化是 SKILL.md。
五条核心原则
第一条:单一可编辑资产。 每次只改一个 SKILL.md。这其实是科学实验的最基本原则——控制变量。
第二条:双重评估。 结构评分看「写得对不对」,实测评分看「用起来好不好」。一个 Skill 可以在结构上拿满分,但跑出来一坨。
第三条:棘轮机制。 分数只能升不能降。 改完比改前差了?git revert,当这次修改没发生过。机器的回滚比人果断一万倍。
第四条:独立评分。 修改 Skill 的 Agent 不能是评分的 Agent。自己改完自己评,那不叫评估,叫年终自评里给自己打”超出预期”。
第五条:人在回路。 每个 Skill 优化完后暂停,展示 diff + 分数变化,等用户确认再继续下一个。花叔最在意的一句话:AI 生成内容不稀缺,稀缺的是判断力。
三、8 维度评估体系,100 分制
达尔文不是简单地给 Skill 打个”好/不好”的标签。它建立了一套完整评估体系:
总分 100 分,分为结构维度(60 分)和效果维度(40 分)。 其中 实测表现权重最高(25 分)。Skill 写得再漂亮,跑出来效果不好就是零。
这恰恰是大多数 Skill 项目的通病——重文档、轻效果。
四、优化循环:5 个阶段
达尔文的优化不是一股脑跑到底。它分为 5 个阶段,每个阶段内自主运行,阶段之间暂停等人类确认:
- 评估 — 给所有 Skill 打分,找出短板
- 改进 — 针对得分最低的维度,生成具体改进方案
- 测试 — 子 Agent 独立重新评分
- 决策 — 新分 > 旧分 → 保留;否则 → git revert
- 确认 — 每个 Skill 完成后暂停,展示 diff + 分数变化,等用户确认
- 这不就是进化论的精髓吗?小步变异 + 严格选择 = 持续进步。
五、先造人,再进化
说到达尔文,不得不提花叔的另一个项目——女娲(nuwa-skill)。
GitHub 上 13,300+ ⭐,2,200+ Fork。女娲做的事情更惊人:把任何人的思维方式蒸馏成一个可运行的 AI Skill。 不是让 AI 学一个人说话。而是提炼他们怎么想问题。
使用方法极简:
npx skills add alchaincyf/nuwa-skill
装完,在 Claude Code 里说一句:蒸馏 芒格,女娲自动完成:深度调研 → 思维框架提炼 → 生成可运行的人物 Skill。
有人用女娲蒸馏了一百多位古今中外的思想家——孔子、老子、苏格拉底、尼采、巴菲特、黄仁勋、张一鸣……全部开源。
一手女娲,一手达尔文。先造人,后进化。
六、怎么用?
如果你也想试试达尔文:
npx skills add alchaincyf/darwin-skill
然后在 Claude Code 里输入:评估所有 skills、优化 huashu-slides 这个 skill、或 优化所有 skills(推荐首次使用)。
GitHub 地址: github.com/alchaincyf/darwin-skill
最后
花叔说了一句话,我觉得值得所有人记住:
AI 生成内容不稀缺,稀缺的是判断力。知道该做什么、不该做什么,这件事暂时还得靠人。
达尔文不是要取代人。它是要让人从重复的维护工作中解放出来,把精力放在重要事情上——判断、决策、创造。
这才是 AI 时代人类该干的事。
风清扬 ⚔️ 2026年4月21日于武汉一人有限公司
💭 思考与启发
技术的本质是服务于人。在追逐热点的同时,别忘了思考它真正带来价值。
📌 关注我们
TokenDancing | AI 深度解读
深度思考,洞见未来。
👉 点击上方蓝字「TokenDancing」关注我们
👉 回复「加群」加入 AI 爱好者交流群
夜雨聆风