30秒速览
2026年开年到现在,AI领域最热的方向不是"更聪明",而是"会长记性"。
三个团队,几乎同时,用三种不同的方式在解决同一个问题:怎么让AI不再用完就忘——做过的事记住,犯过的错不重复,干得越多越熟练。
有意思的是,这三种方式——搭工作环境、做完事写总结、定期自己复盘——你一定不陌生。因为这就是我们带新人的方式。
AI的每一步进化,背后的逻辑都有迹可循:它在学人。
这篇先把这三件事讲清楚。下篇再聊跟我们有什么关系。
为什么要了解这些
先说一个问题:我一个做HR的,为什么要花时间看AI技术的进展?
因为这直接影响你怎么用它。
举个例子:我之前花了两周给AI写了20多版提示语,教它做访谈。每次新开一个对话窗口,它就把之前所有的经验全忘了——我得重新把规则、风格、注意事项全部喂一遍。当时我觉得"AI就是这样的,只能认了"。
但这篇要讲的三个进展,正在改变这件事。如果你还停留在"AI就是个聊天工具、用完就忘"的认知里,你对它的使用方式就会被锁死在最基础的那一层。 了解这些不是为了变成技术专家——是为了更新你对AI能力边界的判断。这个判断直接决定你会不会想到用它、怎么用它、以及用到什么程度。
把AI想成你刚招来的一个新人
这个新人聪明,脑子快,你交代什么他都能立刻开始做。但他有一个致命的毛病——每天早上来上班,把昨天的事全忘了。
你昨天花一个小时跟他讲项目背景,今天他不记得了。上周他做了一份方案被你打回来改了三轮,这周做类似的方案,同样的错犯了。你的偏好——"我不喜欢太正式的措辞""数据表先检查格式再处理"——你说过五遍,他每次都像第一次听。
这就是现在大部分AI的状态。 能力很强,但不长记性。
2026年,三个团队在用不同的方式治这个毛病。而且——他们的思路,跟你带新人的思路一模一样。
第一件事:给新人搭一套好的工作环境
研究团队:Anthropic(Claude背后的公司,Claude Code团队)时间:2026年3月24日,Anthropic工程博客发布文章:Harness Design for Long-Running Application Engineering来源:anthropic.com/engineering/harness-design-long-running-apps背景事件:同月底Claude Code源代码意外泄露
光有一个聪明的新人不够——你还得给他配好工作环境。
Anthropic把这件事叫做Harness Engineering(装备工程)。这篇博客讲的是Claude Code怎么从一个编程助手变成年化收入超10亿美元的产品——核心不是模型更聪明了,而是围绕模型搭了一套好的工作环境。
拆开来看,这套"工作环境"有四样东西:
持续运行的工作流程。 不是"你问一句我答一句",而是一个不断循环的流程——AI执行一步→看看结果对不对→决定下一步→再执行。Claude Code的创造者Boris Cherny在红杉资本的对谈中说过一句话:"Loop才是未来"——就是这个循环。
明确的权限边界。 哪些事AI可以自己决定,哪些事必须来问人。不能让它自己做了一个不可逆的操作然后告诉你"我以为可以"。
闭环验证。 做完一件事,AI自动检查结果对不对。不对就自己回退、自己修正,不等人来审。Boris说的"你给它一个目标,告诉它迭代到完成,它就会一直爬坡下去"就是这个机制。
会话间记忆传递。 今天做了什么、遇到什么问题、怎么解决的——记下来,下次接着用。不再每次从零开始。
这件事为什么引起轰动?因为3月底Claude Code的源代码意外被公开了。全世界的工程师扒开一看发现:
"As LLMs become commoditized, the sophisticated engineering harness built around them is becoming the real moat."
大模型在变成商品,围绕模型搭建的精密装备工程正在成为真正的护城河。
——Anthropic Engineering Blog, 2026.03.24
换成大白话:聪明人到处都有,但能让聪明人持续发挥出来的工作环境,才是真正稀缺的东西。
第二件事:让新人每做完一件事就自动写总结
研究团队:Nous Research(开源AI实验室,GEPA核心引擎由UC Berkeley、Stanford、MIT研究者联合开发)时间:2026年2月25日发布进展:两个月内GitHub获得80,000+颗星,MIT协议完全开源定位:"The agent that grows with you"(与你一起成长的Agent)
你一定见过这种新人——做了一件事,做得还不错,但从来不总结。下次遇到类似的事,又从头摸索一遍。
Nous Research做了一个叫Hermes Agent的开源项目。核心就一件事:AI每做完一个任务,自动把经验提炼出来存下来,下次直接用。
具体分三步——
第一步,把关键操作步骤提取出来,存成一份"操作手册"(他们叫Skill文件,是一个Markdown格式的文档)。第二步,把踩的坑、用户的偏好写进记忆库——它有两个核心文件:一个叫MEMORY.md存环境事实和经验教训,一个叫USER.md存用户偏好。第三步,评估自己这次做得怎么样,调整下次的策略。
下次遇到类似任务——直接加载上次的操作手册和记忆,跳过已知的弯路。
它还有一个值得单独说的设计:一套叫GEPA的自我进化引擎(全称Genetic-Pareto Prompt Evolution,UC Berkeley、Stanford、MIT联合开发)。原理类似"进化算法"——AI自己生成多个不同的工作策略,自己跑一遍评估效果,留下好的淘汰差的。传统的AI优化需要上万次评估才能收敛,GEPA只需要100到500次,成本2到10美元。不需要你去调,它自己调自己。
Hermes Agent的设计哲学里有一句话说得很直白:
"一个会遗忘的智能体,不配被称为智能体。"
——Hermes Agent设计哲学
第三件事:让新人定期自己做复盘
研究团队:Anthropic时间:2026年5月6日,在旧金山"Code with Claude"开发者大会上发布来源:claude.com/blog/new-in-claude-managed-agents(2026年5月7日)当前状态:Research Preview(研究预览版),面向企业级Managed Agents
第二件事是"做完一件事就总结"。第三件事更进一步:不只是做完事总结,还要定期回顾一段时间内做过的所有事——找规律。
你见过这种情况吧:某个员工每次做完项目都写复盘,但那些复盘是零散的、互不关联的。写了20份,从来没有人把这20份放在一起看——"这半年反复出现的问题是什么?""哪些做法每次都管用?""哪些错误换了个场景又犯了?"
Anthropic做了一个叫Dreaming(做梦)的功能。让AI在不干活的时候,自动回顾过去一段时间做过的所有事:
- 回顾
——读取过去最多100个任务的记录 - 找规律
——哪些问题反复出现了?哪些策略每次都管用?哪些方法被证明是错的? - 整理记忆
——重复的合并,过期的清掉,有价值的强化 - 自我纠正
——回放之前的操作,发现错误,标记"下次别这样"
而且这个过程不需要人催,AI自己决定什么时候该"做梦"了。
Anthropic的原话:
"Together, memory and dreaming form a robust memory system for self-improving agents."
记忆与做梦共同构成了自我改进Agent的强大记忆系统。
——Anthropic, 2026.05.07
他们也特别说明了:这不是AI有意识了——是一个结构化的、定期执行的记忆整理过程。 同期发布的还有Outcomes(结果评估,让AI自动判断任务有没有完成)和Multi-agent Orchestration(多个AI协同工作),都是围绕"让AI越来越强"这个方向。
三件事之间是什么关系
| 技术名称 | |||
| 谁在做 | |||
| 时间 | |||
| 本质 |
三件事不是竞争关系,更像是带一个新人的三个阶段:
- 先搭环境
——给他流程、权限、自检清单、交接本 - 再建习惯
——做完事就总结,下次越做越好 - 最后养成复盘能力
——定期回顾,主动发现规律、优化方法
只做其中一个不够。但三个都做到了——你得到的不是一个"需要你盯着才能干活"的新人,而是一个自己能成长的员工。
还有一个信号值得注意
2026年4月24日-26日,全球顶级AI学术会议ICLR在巴西里约热内卢开了一个研讨会——全称"ICLR 2026 Workshop on AI with Recursive Self-Improvement"。这是ICLR历史上第一个专门聚焦"AI自我改进"的学术研讨会。
这个Workshop研究的核心问题是:如何为自我改进的AI系统构建可靠的算法基础? 覆盖了五个方向:从过去行动中学习(经验学习)、AI为自己生成训练数据(合成数据)、跨视觉/语言/语音的自我改进(多模态)、小模型监督大模型改进(弱到强泛化)、以及在使用过程中变强(推理时扩展)。
更早一些,2025年底斯坦福大学开了一门新课:CS329A: Self-Improving AI Agents。
当顶级学术会议和顶级大学开始为一个方向专门设课、设会议的时候,说明这件事已经从概念变成了正式的研究方向。
你有没有发现一件事
回头看这三项进展——搭工作环境、做完事写总结、定期自己复盘。
这不是什么外星科技。这就是我们对一个优秀员工的期待。
这些技术的研究者们用了各种术语——Harness Engineering、Closed Learning Loop、Dreaming——但拆开来看,底层逻辑都有迹可循:结构化的工作流程、经验的沉淀与复用、定期的反思与自我纠正。 这些东西人类积累了几千年了。
AI在学的,就是人的思维方式。 它不是在发明新东西——它是在把人类已经验证过的方法,用工程化的方式复刻出来,然后做到人做不到的程度:不会忘、不会偷懒、不会"这次就算了下次再说"。
下篇聊一个问题:这件事跟我们有什么关系?
夜雨聆风