AI Agents从依赖人类工程的“工具马具”(harness)转向自主自我改进与代码进化

https://x.com/AlphaSignalAI/status/2054201045346287766

AlphaSignal AI（AI 新闻与开发者社区）长帖详细总结 —— 核心主题：AI 代理从依赖人类工程的“工具马具”（harness）转向自主自我改进与代码进化

这篇帖子聚焦AI代理（Agent）发展的最新趋势：传统agentic系统依赖人工编写的固定基础设施，限制了进一步演进；而新一代自改进代理（self-improving agents）让模型自身成为工程师，通过修改自身代码实现开放式进化，大幅提升可靠性和跨领域能力，具有从“被动工具”到“主动生产者”的范式转变意义。

传统Agent的局限性

当前AI代理系统主要依赖AI harnesses（工具马具），包括工具调用、错误处理、内存管理、模型路由和验证等环节。这些组件多由人类工程师手工编写，导致代理改进速度受限于人类预见性和编码效率。一旦未预料到的问题出现，系统便难以自主应对，呈现出“脆性”特征。

Darwin-Gödel Machine（DGM）：进化式自改进

由Sakana AI提出的Darwin-Gödel Machine (DGM) 将代理改进视为开放式进化搜索：

以基础代理脚手架为起点，通过LLM提出对自身Python代码库的修改建议（如新增补丁验证、改进文件查看、添加详细历史日志）。
维护“stepping stones”（成功变体存档），避免进化陷入死胡同，可回溯并从不同方向分支。
显著性能提升：在SWE-bench（真实GitHub issue基准）从20%提升至50%；Polyglot编码基准从14.2%提升至30.7%，超越手设计代理如Aider。
主要限制：主要适用于编码任务，核心改进机制相对固定，难以泛化到非编码领域。

Hyperagents（DGM-H）：元认知自修改

Meta研究者在DGM基础上开发的Hyperagents (DGM-H) 进一步突破：

将“任务代理”（执行具体任务）和“元代理”（分析修改自身）融合为单一可编辑程序。
元改进机制本身可进化：不仅改写任务逻辑，还能改写评估与改进自身的逻辑。
保留DGM的开放式池结构，从成功Hyperagent池中选取候选者，进行自修改、任务评估，优秀变体重新入池。
自主涌现复杂行为：独立进化出持久内存系统、跨代性能追踪、多阶段评估流水线，实质上从零构建高级harness。
跨领域验证：在论文审阅任务中准确率从0.0提升至0.710；在机器人任务中，将四足机器人奖励函数从0.060提升至0.372，超越人工基线0.348。

Karpathy的Autoresearch：实用自改进示例

Andrej Karpathy的开源Autoresearch项目提供可立即运行的实践案例：

通过program.md文件接收人类高层次Markdown指令。
自动修改train.py（GPT模型训练代码），运行训练作业，评估指标。
使用Git作为研究记忆：指标改善则commit，否则git reset回滚至已知良好状态。
发现实用优化（如在特定场景下优先提升迭代速度而非批大小）。
可扩展至任何可量化的编码任务（如Shopify团队用于优化CI流水线）。

风险与现实考量

奖励黑客（Reward Hacking）
：过度优化单一指标，可能找到捷径而未达成真实目标。
局部最优陷阱
：倾向于安全的小幅超参数调整，而非大胆架构创新。
计算资源消耗
：可能进入无限循环，大量消耗GPU。
安全隐患
：可能生成不安全代码或绕过数据保护机制。
结论：仍需经验丰富工程师进行指导与监督。

【总结洞见】
这篇长帖的最大价值在于清晰勾勒了AI Agent从“人类 scaffolding 依赖”向“自主元进化”转型的技术路径，DGM与Hyperagents代表了开放式自改进架构的核心方向，而Autoresearch则提供了落地起点。对开发者的启发是：未来高性能Agent的构建重点将从编写固定harness转向设计有效的进化框架与防护机制；掌握自修改循环、stepping stones存档和元认知设计，将成为构建下一代可靠、生产级AI系统的关键竞争力。