刚刚过去的这个周末,AI 圈发生了两件事,放在一起看特别有意思。
5月10日,Anthropic 在 Code with Claude 开发者大会上正式发布了 Dreaming(做梦) 功能——Claude Agent 可以在任务结束后自动回溯历史记录,从失败中提取教训,生成全新的记忆文件,让下一次执行更准确。

几乎同一时间,OpenAI 后训练团队核心研究员翁家翌发表了一篇重磅博客,提出了一种叫 启发式学习(Heuristic Learning, HL) 的新范式——AI 不需要训练神经网络、不需要梯度下降,只需要不断改写代码就能在 Atari 游戏里打出理论满分。
如果你只把它们当成"两个大厂的功能发布",那你可能错过了一个更重要的信号:AI Agent 正在从"执行工具"变成"会自我改进的学习者"。这是从量变到质变的一步。
▲ AI Agent 的三阶段进化:从对话到执行,再到自我进化
🟠Dreaming:让 AI 学会"做梦"反思
先聊聊 Anthropic 的 Dreaming。这个功能的名字起得很妙——它确实借鉴了人类睡眠时记忆巩固的机制。
简单来说,Dreaming 让 Claude Agent 在任务执行完成后进入一个离线分析阶段:它会自动回溯过去最多 100 个对话 session 的日志,从中识别出"哪些操作反复出错"、"哪些流程最终成功了"、"团队共享了哪些偏好设置",然后生成一份全新的 memory 文件。
核心机制
不是简单地"记录上次做了什么",而是从历史中提取模式。就像你晚上睡觉时,大脑会把白天的经历整理成长期记忆——Dreaming 做的是同一件事,只不过它读的不是海马体,而是 session 日志。
而且这个机制有明确的"人工审阅"环节:Dreaming 生成的新 memory 不会直接覆盖旧记忆,而是先交给开发者审查,确认无误后再应用。这既保证了安全性,又给 Agent 留下了持续优化的空间。
效果怎么样?Anthropic 披露了几个数据:律师事务所 Harvey 报告任务完成率提升了 6 倍,医疗文档公司 Wisedocs 的处理时间减少了 50%。更值得注意的是,Dreaming 带来的提升是累积性的——Agent 用得越久,积累的经验越多,表现就越好。这和传统工具的"每次从零开始"是本质区别。
▲ Dreaming 的反思-优化闭环:从执行到反思,再到优化,形成正向循环
🟠启发式学习:不用训练,也能变强
如果说 Anthropic 的 Dreaming 是在"记忆层面"让 Agent 自我改进,那 OpenAI 翁家翌提出的启发式学习(HL),就是在"学习范式"层面开了一扇新的大门。
传统上,AI 变强只有一条路:训练神经网络。输入数据,计算梯度,更新权重,循环往复。这条路走了十年,带来了 GPT 系列的辉煌,但也暴露了问题——训练成本高得离谱(GPT-5.5 的训练费用据说超过 50 亿美元)、模型学完就忘(灾难性遗忘)、出了问题完全不知道模型"怎么想的"(黑箱问题)。
翁家翌的思路非常激进,甚至有些"反直觉":让 AI 直接写代码来解决问题,而不是训练神经网络的权重。
HL 的工作流程
Codex(基于 GPT-5.4)读取环境日志 → 分析失败原因 → 直接修改 Python 代码 → 运行测试 → 查看回放 → 继续迭代。整个过程没有任何梯度计算,没有反向传播,模型的参数纹丝不动。AI 纯粹通过"写更好的代码"来提升自己。
结果让人震惊:在经典游戏 Atari Breakout 中,HL 拿到了 864 分——理论满分,远超传统的 PPO 强化学习算法。在 MuJoCo 机器人控制任务中,HL 也轻松进入了 Deep RL 的量级。
| 策略形式 | ||
| 更新方式 | ||
| 可解释性 | ||
| 遗忘问题 | ||
| 样本效率 | ||
| 成本 |
当然,HL 目前有明显的边界。翁家翌自己也很坦诚:对于需要复杂感知的任务(比如 ImageNet 级别的图像识别),纯代码解决不了。Atari 游戏是"可形式化"的环境,而现实世界远没有那么干净。
但这不妨碍 HL 提供了一个全新的思路:未来的 AI 能力提升,可能不再只依赖"烧钱堆算力",而是通过更聪明的"代码生成 + 自我迭代"来实现。这也解释了为什么 OpenAI 近期开始缩减微调 API——他们可能在押注一条更高效的路。
▲ 两种路线的对比:传统训练 vs 启发式学习
🟠两条路线,指向同一个未来
看完这两个发布,你可能会问:Dreaming 和 HL,一个在搞"记忆反思",一个在搞"代码迭代",它们有什么关系?
我的理解是:它们从不同的技术路径出发,但指向了同一个根本方向——让 AI 拥有"自我改进"的能力。
Dreaming 解决的是"怎么记住经验"的问题。Agent 每天执行几十上百个任务,如果没有反思机制,错误会重复犯,经验会白白流失。Dreaming 相当于给 Agent 装了一个"经验萃取器",每天把当天的教训自动提炼成明天可用的知识。
HL 解决的是"怎么从经验中学习"的问题。传统的学习方式是改模型参数,但 HL 证明了一条更轻量、更可解释的路:让 AI 直接写代码来改进自己。这不仅仅是"不花钱",更重要的是"可验证"——你看到的就是一段 Python,不需要猜模型内部发生了什么。
如果把 AI Agent 比作一个实习生,那么 Dreaming 就是让他每天写工作日志和复盘总结,而 HL 则是教会他"遇到没做过的事,自己先尝试写个脚本试试,不行再改"。两个能力加起来,这个实习生就不再是实习生——他在往"初级工程师"进化。
🟠这对普通人意味着什么?
你可能会觉得,这两个技术离日常生活还很远。但如果拉长时间线看,它们的影响可能比任何一次模型参数升级都更深远。
第一,AI 工具的"学习曲线"会被压平
现在用 AI Agent,你还需要花时间调 Prompt、配工具链、反复告诉它你的偏好。如果 Dreaming 这类反思机制普及,Agent 可以在使用过程中自动学习你的工作习惯和偏好——不是靠你手把手教,而是靠它自己在后台"做梦"总结。这意味着 AI 工具的使用门槛会大幅降低。
第二,AI 的成本结构正在被重写
HL 的出现是一个重要信号:AI 的能力提升不一定需要更贵的 GPU。如果"写代码优化自己"这条路走通,AI 的边际成本会急剧下降。这对创业者和个人开发者来说是好消息——你不需要一个亿美元的算力预算,也能用上不断进化的 AI。
第三,AI 正在从"工具"变成"协作者"
一个能反思自己错误、能总结经验、能自我迭代的系统,和传统的"你问它答"的工具,在本质上已经不同了。虽然离真正的"自主意识"还很远,但"自主改进"这一步迈出去之后,我们和 AI 的关系会发生微妙的变化——从"使用工具"到"管理协作者"。
🟠写在最后
2026年5月的这个周末,Anthropic 和 OpenAI 用两种不同的方式告诉了我们同一件事:AI Agent 的下一个战场,不是"谁能回答更复杂的问题",而是"谁能从自己的经历中真正学到东西"。
Dreaming 让 Agent 拥有了"记忆巩固"的能力,HL 让 Agent 掌握了"程序化自我优化"的能力。两者合在一起,描绘了一个清晰的未来:AI 不再是一个每次使用都要从头教起的工具,而是一个会随着使用越来越懂你、越来越能干的学习系统。
这个转变刚刚开始,但它可能是 2026 年最重要的一条 AI 技术主线。我会持续关注这个方向,下次再聊。
— END —
AI 日报 · 每天了解一个 AI 信息差
AI 日报 · 每天读懂一个 AI 知识点
晚风 | 白天写代码,晚上写文章,偶尔健身
信息来源:翁家翌博客 · 36氪 · VentureBeat · Every.to · 多可AI日报
#OpenClaw #ActiveMemory #MemoryWiki #AI工具 #AI智能体 #自我进化 #Dreaming #启发式学习 #Agent
夜雨聆风