AI 智能体的＂觉醒时刻＂: 从执行命令到自我进化

刚刚过去的这个周末，AI 圈发生了两件事，放在一起看特别有意思。

5月10日，Anthropic 在 Code with Claude 开发者大会上正式发布了 Dreaming（做梦） 功能——Claude Agent 可以在任务结束后自动回溯历史记录，从失败中提取教训，生成全新的记忆文件，让下一次执行更准确。

几乎同一时间，OpenAI 后训练团队核心研究员翁家翌发表了一篇重磅博客，提出了一种叫 启发式学习（Heuristic Learning, HL） 的新范式——AI 不需要训练神经网络、不需要梯度下降，只需要不断改写代码就能在 Atari 游戏里打出理论满分。

如果你只把它们当成"两个大厂的功能发布"，那你可能错过了一个更重要的信号：AI Agent 正在从"执行工具"变成"会自我改进的学习者"。这是从量变到质变的一步。

▲ AI Agent 的三阶段进化：从对话到执行，再到自我进化

🟠Dreaming：让 AI 学会"做梦"反思

先聊聊 Anthropic 的 Dreaming。这个功能的名字起得很妙——它确实借鉴了人类睡眠时记忆巩固的机制。

简单来说，Dreaming 让 Claude Agent 在任务执行完成后进入一个离线分析阶段：它会自动回溯过去最多 100 个对话 session 的日志，从中识别出"哪些操作反复出错"、"哪些流程最终成功了"、"团队共享了哪些偏好设置"，然后生成一份全新的 memory 文件。

核心机制

不是简单地"记录上次做了什么"，而是从历史中提取模式。就像你晚上睡觉时，大脑会把白天的经历整理成长期记忆——Dreaming 做的是同一件事，只不过它读的不是海马体，而是 session 日志。

而且这个机制有明确的"人工审阅"环节：Dreaming 生成的新 memory 不会直接覆盖旧记忆，而是先交给开发者审查，确认无误后再应用。这既保证了安全性，又给 Agent 留下了持续优化的空间。

效果怎么样？Anthropic 披露了几个数据：律师事务所 Harvey 报告任务完成率提升了 6 倍，医疗文档公司 Wisedocs 的处理时间减少了 50%。更值得注意的是，Dreaming 带来的提升是累积性的——Agent 用得越久，积累的经验越多，表现就越好。这和传统工具的"每次从零开始"是本质区别。

▲ Dreaming 的反思-优化闭环：从执行到反思，再到优化，形成正向循环

🟠启发式学习：不用训练，也能变强

如果说 Anthropic 的 Dreaming 是在"记忆层面"让 Agent 自我改进，那 OpenAI 翁家翌提出的启发式学习（HL），就是在"学习范式"层面开了一扇新的大门。

传统上，AI 变强只有一条路：训练神经网络。输入数据，计算梯度，更新权重，循环往复。这条路走了十年，带来了 GPT 系列的辉煌，但也暴露了问题——训练成本高得离谱（GPT-5.5 的训练费用据说超过 50 亿美元）、模型学完就忘（灾难性遗忘）、出了问题完全不知道模型"怎么想的"（黑箱问题）。

翁家翌的思路非常激进，甚至有些"反直觉"：让 AI 直接写代码来解决问题，而不是训练神经网络的权重。

HL 的工作流程

Codex（基于 GPT-5.4）读取环境日志 → 分析失败原因 → 直接修改 Python 代码 → 运行测试 → 查看回放 → 继续迭代。整个过程没有任何梯度计算，没有反向传播，模型的参数纹丝不动。AI 纯粹通过"写更好的代码"来提升自己。

结果让人震惊：在经典游戏 Atari Breakout 中，HL 拿到了 864 分——理论满分，远超传统的 PPO 强化学习算法。在 MuJoCo 机器人控制任务中，HL 也轻松进入了 Deep RL 的量级。

维度	传统深度强化学习	启发式学习 (HL)
策略形式	神经网络参数	纯 Python 代码
更新方式	梯度下降	AI 直接改代码
可解释性	黑箱	代码可读、可审计
遗忘问题	新梯度覆盖旧能力	旧能力固化为回归测试
样本效率	需大量环境交互	一次代码改动立竿见影
成本	极高（GPU 集群）	极低（纯代码推理）

当然，HL 目前有明显的边界。翁家翌自己也很坦诚：对于需要复杂感知的任务（比如 ImageNet 级别的图像识别），纯代码解决不了。Atari 游戏是"可形式化"的环境，而现实世界远没有那么干净。

但这不妨碍 HL 提供了一个全新的思路：未来的 AI 能力提升，可能不再只依赖"烧钱堆算力"，而是通过更聪明的"代码生成 + 自我迭代"来实现。这也解释了为什么 OpenAI 近期开始缩减微调 API——他们可能在押注一条更高效的路。

▲ 两种路线的对比：传统训练 vs 启发式学习

🟠两条路线，指向同一个未来

看完这两个发布，你可能会问：Dreaming 和 HL，一个在搞"记忆反思"，一个在搞"代码迭代"，它们有什么关系？

我的理解是：它们从不同的技术路径出发，但指向了同一个根本方向——让 AI 拥有"自我改进"的能力。

Dreaming 解决的是"怎么记住经验"的问题。Agent 每天执行几十上百个任务，如果没有反思机制，错误会重复犯，经验会白白流失。Dreaming 相当于给 Agent 装了一个"经验萃取器"，每天把当天的教训自动提炼成明天可用的知识。

HL 解决的是"怎么从经验中学习"的问题。传统的学习方式是改模型参数，但 HL 证明了一条更轻量、更可解释的路：让 AI 直接写代码来改进自己。这不仅仅是"不花钱"，更重要的是"可验证"——你看到的就是一段 Python，不需要猜模型内部发生了什么。

如果把 AI Agent 比作一个实习生，那么 Dreaming 就是让他每天写工作日志和复盘总结，而 HL 则是教会他"遇到没做过的事，自己先尝试写个脚本试试，不行再改"。两个能力加起来，这个实习生就不再是实习生——他在往"初级工程师"进化。

🟠这对普通人意味着什么？

你可能会觉得，这两个技术离日常生活还很远。但如果拉长时间线看，它们的影响可能比任何一次模型参数升级都更深远。

第一，AI 工具的"学习曲线"会被压平

现在用 AI Agent，你还需要花时间调 Prompt、配工具链、反复告诉它你的偏好。如果 Dreaming 这类反思机制普及，Agent 可以在使用过程中自动学习你的工作习惯和偏好——不是靠你手把手教，而是靠它自己在后台"做梦"总结。这意味着 AI 工具的使用门槛会大幅降低。

第二，AI 的成本结构正在被重写

HL 的出现是一个重要信号：AI 的能力提升不一定需要更贵的 GPU。如果"写代码优化自己"这条路走通，AI 的边际成本会急剧下降。这对创业者和个人开发者来说是好消息——你不需要一个亿美元的算力预算，也能用上不断进化的 AI。

第三，AI 正在从"工具"变成"协作者"

一个能反思自己错误、能总结经验、能自我迭代的系统，和传统的"你问它答"的工具，在本质上已经不同了。虽然离真正的"自主意识"还很远，但"自主改进"这一步迈出去之后，我们和 AI 的关系会发生微妙的变化——从"使用工具"到"管理协作者"。

🟠写在最后

2026年5月的这个周末，Anthropic 和 OpenAI 用两种不同的方式告诉了我们同一件事：AI Agent 的下一个战场，不是"谁能回答更复杂的问题"，而是"谁能从自己的经历中真正学到东西"。

Dreaming 让 Agent 拥有了"记忆巩固"的能力，HL 让 Agent 掌握了"程序化自我优化"的能力。两者合在一起，描绘了一个清晰的未来：AI 不再是一个每次使用都要从头教起的工具，而是一个会随着使用越来越懂你、越来越能干的学习系统。

这个转变刚刚开始，但它可能是 2026 年最重要的一条 AI 技术主线。我会持续关注这个方向，下次再聊。

— END —

AI 日报 · 每天了解一个 AI 信息差

AI 日报 · 每天读懂一个 AI 知识点

晚风 | 白天写代码，晚上写文章，偶尔健身

信息来源：翁家翌博客 · 36氪 · VentureBeat · Every.to · 多可AI日报

#OpenClaw #ActiveMemory #MemoryWiki #AI工具 #AI智能体 #自我进化 #Dreaming #启发式学习 #Agent