Karpathy 的优化神器,被搬进了 Claude Code
点击上方↗️「活水智能」,关注 + 星标🌟

作者:Reza Rezvani
编译:活水智能
Karpathy 前段时间开源了 AutoResearch——让 AI Agent 自动跑实验、调参数、优化模型训练。Shopify CEO 用它一夜之间把性能提升了 19%。
但有人看到了更深一层的东西:这套方法的核心不是机器学习,而是一个通用的优化范式——”一个文件、一个指标、一个循环”。
柏林的 AI 工程师 Reza Rezvani 把这个范式提取出来,做成了一个 Claude Code Agent Skill。不只能优化模型训练,还能优化 API 响应速度、前端包体积、营销文案、甚至 Prompt 本身。
核心思路:约束即力量
Karpathy 的 AutoResearch 之所以有效,靠的是四个硬约束:
-
• 固定时间预算:每次实验只跑 5 分钟,确保结果可比较 -
• 单文件范围:每次只改一个文件,保持变更可审查 -
• Git 当记忆:成功的实验提交,失败的回滚,历史全在版本记录里 -
• 单一指标:只看一个数字,方向明确(越高越好或越低越好),没有歧义
这四个约束看起来很”笨”,但正是它们让 AI Agent 不会跑偏。没有模糊的多目标权衡,没有无法衡量的”感觉变好了”,只有一个数字在一个方向上持续改进。
从机器学习到万物优化
Rezvani 把这个模式推广到了五个领域:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
关键设计:评估逻辑锁定在 evaluate.py 中,Agent 不能修改它。这防止了一个经典问题——AI 不去优化目标,反而去”优化”评估标准来刷分。
渐进式策略升级
这个 Skill 不是无脑循环。它有一套策略升级机制:
-
• 第 1-5 轮:先摘低垂果实,做最明显的优化 -
• 第 6-15 轮:系统性地调整参数 -
• 第 16-30 轮:尝试结构性变更 -
• 第 30 轮以后:激进实验,大胆尝试
每 10 轮,Agent 会回顾所有实验结果,更新自己的策略文档。这是一种”自我改进”机制——Agent 不只是在优化目标文件,也在优化自己的优化策略。
怎么用
安装到 Claude Code:
git clone https://github.com/alirezarezvani/claude-skills.gitcp -r claude-skills/engineering/autoresearch-agent ~/.claude/skills/
初始化一个实验(以优化 API 响应速度为例):
python scripts/setup_experiment.py \ --domain engineering \ --name api-speed \ --target src/api/search.py \ --eval "pytest bench.py --tb=no -q"\ --metric p50_ms \ --direction lower
运行后会在项目中创建 .autoresearch/ 目录,包含配置文件、策略文档和实验日志。然后让 Claude Code 开始循环优化即可。
这个 Skill 不只支持 Claude Code,还能转换为 Codex、Gemini CLI、Cursor、Windsurf 等 10+ 工具的格式。
局限性
作者很坦诚地列出了当前的限制:
-
• 每次只能优化一个文件,不支持跨文件的系统性重构 -
• 不支持多指标权衡(比如”速度提升但不能增加内存”) -
• LLM 评分在主观领域(文案、Prompt)的一致性还没有经过大规模验证 -
• 策略自我改进可能会遇到瓶颈
为什么值得关注
这篇文章的价值不在于这个具体的 Skill,而在于它揭示的一个趋势:AI Agent 的能力正在从”执行指令”进化到”自主优化”。
Karpathy 给出了范式,Rezvani 证明了它可以泛化。下一步,这种”约束驱动的自动优化”可能会成为每个开发者工具箱里的标配。
活水智能,成立于北京,专注通过AI教育、AI软件及高质量社群,持续提升知识工作者的生产力。
-
• 10+ 人气AI课程:线下工作坊与实操训练,聚焦最新AI应用。 -
• 2600+深度成员社群:知识星球汇聚大厂程序员、企业高管、律师、创业者等各领域精英。 -
• 城市分舵:北/上/广/深/杭/成/渝等城市均有线下组织,连接志同道合的伙伴。
🎁 活水智能福利群开放加入
每周独家AI新知、专属优惠券、干货方法论、同学交流心得,更有不定期赠书活动,等你来参与!
👇🏻👇🏻👇🏻

夜雨聆风