Anthropic 让 AI 学会＂做梦＂了

ANTHROPIC INSIGHT

5月7日 · 旧金山 · Code with Claude

Anthropic 让 AI 学会"做梦"了

会上扔出了三个东西，一个是 Dreaming，一个是 Outcomes，一个是 Multi-agent Orchestration。三个功能加一块儿，核心解决一个问题，就是 AI agent 怎么在企业环境里真正跑起来。

Dreaming

Outcomes

Multi-agent Orchestration

CORE FEATURE

Dreaming：让 Agent 形成「肌肉记忆」

这三个里面，Dreaming 最有意思。怎么说呢，它让 AI agent 能从自己过去的执行记录里提取经验，形成所谓的「肌肉记忆」。听着有点玄乎，但其实逻辑挺简单的。

传统 vs Dreaming

传统 Memory 和 Dreaming 有什么不一样？

传统意义上的 agent memory，记住的是用户偏好、上下文、一些零散的信息。Dreaming 不一样，它是一个定时跑的后台进程，会定期审视你 agent 跑过的所有 session，从中找出规律，然后写成文本笔记和结构化的 playbook，供未来的自己调用。

EXAMPLE

举个例子。你让一个 agent 去跑任务，它今天踩了一个坑，明天又踩了同样的坑，后天还踩。传统的 memory 系统里，这些坑是散落在各处的，agent 下次遇到类似场景可能还会踩。但 Dreaming 会把这些坑拎出来，发现「哎这个地方老是出错」，然后写一条笔记，比如「遇到 xxx 情况要先检查 yyy」，下次 agent 启动的时候自动带上这条经验。

就像你自己建文档记录流程

Anthropic 的 Alex Albert 用了个特别形象的比喻。他说这就像你在公司里干完一个活儿，觉得这个流程以后还能用，就手动建了一个文档记录下来。Dreaming 就是让 model 自己干这件事，不用你管了。

KEY DESIGN

而且关键是，它不改模型权重。所有的学习成果都是纯文本形式，人能看，能审，能改。这个设计非常聪明。一方面解决了「agent 能不能自己进化」的问题，另一方面又没有碰训练这个黑箱，避免了各种不可控的风险。

Live Demo

月球着陆模拟：虚构航天公司 Lumara

Anthropic 在大会现场做了个演示，挺震撼的。他们虚构了一个航天公司叫 Lumara，任务是让无人机在月球着陆采矿。配了三个专业 agent，一个指挥官，一个探测器，一个导航器。然后定义了成功标准，要软着陆、地面清晰、燃料足够返回地球。

第一轮：六个着陆点，表现还行但不完美

↓

触发 Dreaming：overnight 生成着陆 playbook

↓

第二天：之前表现差的点明显改善

REFLECTION

月球着陆离我们太远，但恰恰因此展示了价值

说实话我看到这个 demo 的时候愣了一下。这个场景很具体，但同时也很极端，月球着陆这种事儿离我们太远了。但恰恰因为极端，它反而把 Dreaming 的价值展示得很清楚，就是 agent 可以在没有任何人工干预的情况下，从自己的历史里学到东西，然后越做越好。

Customer Data

Harvey、Wisedocs、Netflix 的实际效果

Harvey 这家公司也分享了他们的数据。这是一家做法律 AI 的公司，用了 Dreaming 之后，任务完成率提高了大约 6 倍。还有一家叫 Wisedocs 的医疗文档审核公司，用 Outcomes 功能把审核时间缩短了一半。Netflix 则在用多 agent 协作同时处理几百个构建日志。这些数字听着有点抽象，但背后的趋势是清晰的。AI agent 正在从「能干」变成「会学」。

WHY IT MATTERS

这才是企业级应用真正需要的东西

说真的，这才是企业级应用真正需要的东西。你想想，一个 agent 如果只是执行器，它今天犯错明天还犯同样的错，那谁敢让它跑生产环境？但如果它能自己复盘、自己改、自己进化，那信任的基础就完全不一样了。

三个功能形成完整闭环

Anthropic 这次发布的三个功能，其实是一个完整的闭环。

Multi-agent Orchestration：让大任务能拆成小块，分给多个专业 agent 并行处理

Outcomes：定义成功标准，独立的 grader agent 检查成果，不达标就重来

Dreaming：从所有执行记录里提取经验，让下一轮更好

Dario Amodei

2026 年第一季度增长年化 80 倍

Dario Amodei 在大会上也聊了一些有意思的东西。他说 Anthropic 在 2026 年第一季度看到的增长是年化 80 倍，远超他们内部预测的 10 倍。API 量同比增加近 70 倍。开发者平均每周用 Claude Code 的时间是 20 小时。这个数据确实有点夸张。他还重申了去年做的一个预测，说 2026 年会出现第一个单人运营的 10 亿美元公司。然后加了一句，「目前还没发生，但我们还有 7 个月。」

COMPETITIVE LANDSCAPE

Criticism

WIRED 的吐槽

WIRED 直接发了一篇文章，标题叫《求 AI 公司别再用人类生理过程命名功能了》。里面说 Anthropic 把这个功能叫 Dreaming，把另一个叫 Memory，然后说它们「组成了一个健壮的记忆系统」，听着就很矫情。

Position

生产可靠性的领先

OpenAI 有自己的 agent 平台，Google 也在搞，但现在看下来，Anthropic 在「生产可靠性」这个维度上走得比较靠前。

Gap

让 agent 系统性审视历史

Memory 很多平台都有，tool use 也都支持，但让 agent 系统性地审视自己的历史、提炼可复用的知识，这个目前还比较少见。

Real Story

不是模型能力，是落地能力

它不是又一个「模型能力提升」的故事，而是「agent 怎么在企业里真正落地」的故事。

CORE INSIGHT

真正限制 AI 落地的，从来不是它有多聪明，而是它能不能被信任

模型能力再强，如果 agent 不能自我改进，它就永远停留在工具层面，没办法变成一个可以托付的系统。Dreaming 这个东西，说到底，是给 agent 装了一个「后半夜的反思机制」。白天干活，晚上复盘，第二天带着经验继续干。这个循环一旦跑起来，agent 就不再是静态的执行器，而是一个会进化的东西。我有时候觉得，这事儿的意义比模型参数翻几倍还要大。

FINAL TAKEAWAY

如果 AI 会做梦，那梦醒之后，它就不再是昨天的它了。

大时代啊，朋友们。

THE END

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。