AI的进化,其实一直在模仿人的思维——只是你可能没注意到(上)

30秒速览

2026年开年到现在，AI领域最热的方向不是"更聪明"，而是"会长记性"。
三个团队，几乎同时，用三种不同的方式在解决同一个问题：怎么让AI不再用完就忘——做过的事记住，犯过的错不重复，干得越多越熟练。
有意思的是，这三种方式——搭工作环境、做完事写总结、定期自己复盘——你一定不陌生。因为这就是我们带新人的方式。
AI的每一步进化，背后的逻辑都有迹可循：它在学人。
这篇先把这三件事讲清楚。下篇再聊跟我们有什么关系。

为什么要了解这些

先说一个问题：我一个做HR的，为什么要花时间看AI技术的进展？

因为这直接影响你怎么用它。

举个例子：我之前花了两周给AI写了20多版提示语，教它做访谈。每次新开一个对话窗口，它就把之前所有的经验全忘了——我得重新把规则、风格、注意事项全部喂一遍。当时我觉得"AI就是这样的，只能认了"。

但这篇要讲的三个进展，正在改变这件事。如果你还停留在"AI就是个聊天工具、用完就忘"的认知里，你对它的使用方式就会被锁死在最基础的那一层。 了解这些不是为了变成技术专家——是为了更新你对AI能力边界的判断。这个判断直接决定你会不会想到用它、怎么用它、以及用到什么程度。

把AI想成你刚招来的一个新人

这个新人聪明，脑子快，你交代什么他都能立刻开始做。但他有一个致命的毛病——每天早上来上班，把昨天的事全忘了。

你昨天花一个小时跟他讲项目背景，今天他不记得了。上周他做了一份方案被你打回来改了三轮，这周做类似的方案，同样的错犯了。你的偏好——"我不喜欢太正式的措辞""数据表先检查格式再处理"——你说过五遍，他每次都像第一次听。

这就是现在大部分AI的状态。 能力很强，但不长记性。

2026年，三个团队在用不同的方式治这个毛病。而且——他们的思路，跟你带新人的思路一模一样。

第一件事：给新人搭一套好的工作环境

研究团队：Anthropic（Claude背后的公司，Claude Code团队）时间：2026年3月24日，Anthropic工程博客发布文章：Harness Design for Long-Running Application Engineering来源：anthropic.com/engineering/harness-design-long-running-apps背景事件：同月底Claude Code源代码意外泄露

光有一个聪明的新人不够——你还得给他配好工作环境。

Anthropic把这件事叫做Harness Engineering（装备工程）。这篇博客讲的是Claude Code怎么从一个编程助手变成年化收入超10亿美元的产品——核心不是模型更聪明了，而是围绕模型搭了一套好的工作环境。

拆开来看，这套"工作环境"有四样东西：

持续运行的工作流程。 不是"你问一句我答一句"，而是一个不断循环的流程——AI执行一步→看看结果对不对→决定下一步→再执行。Claude Code的创造者Boris Cherny在红杉资本的对谈中说过一句话："Loop才是未来"——就是这个循环。

明确的权限边界。 哪些事AI可以自己决定，哪些事必须来问人。不能让它自己做了一个不可逆的操作然后告诉你"我以为可以"。

闭环验证。 做完一件事，AI自动检查结果对不对。不对就自己回退、自己修正，不等人来审。Boris说的"你给它一个目标，告诉它迭代到完成，它就会一直爬坡下去"就是这个机制。

会话间记忆传递。 今天做了什么、遇到什么问题、怎么解决的——记下来，下次接着用。不再每次从零开始。

这件事为什么引起轰动？因为3月底Claude Code的源代码意外被公开了。全世界的工程师扒开一看发现：

"As LLMs become commoditized, the sophisticated engineering harness built around them is becoming the real moat."
大模型在变成商品，围绕模型搭建的精密装备工程正在成为真正的护城河。
——Anthropic Engineering Blog, 2026.03.24

换成大白话：聪明人到处都有，但能让聪明人持续发挥出来的工作环境，才是真正稀缺的东西。

第二件事：让新人每做完一件事就自动写总结

研究团队：Nous Research（开源AI实验室，GEPA核心引擎由UC Berkeley、Stanford、MIT研究者联合开发）时间：2026年2月25日发布进展：两个月内GitHub获得80,000+颗星，MIT协议完全开源定位："The agent that grows with you"（与你一起成长的Agent）

你一定见过这种新人——做了一件事，做得还不错，但从来不总结。下次遇到类似的事，又从头摸索一遍。

Nous Research做了一个叫Hermes Agent的开源项目。核心就一件事：AI每做完一个任务，自动把经验提炼出来存下来，下次直接用。

具体分三步——

第一步，把关键操作步骤提取出来，存成一份"操作手册"（他们叫Skill文件，是一个Markdown格式的文档）。第二步，把踩的坑、用户的偏好写进记忆库——它有两个核心文件：一个叫MEMORY.md存环境事实和经验教训，一个叫USER.md存用户偏好。第三步，评估自己这次做得怎么样，调整下次的策略。

下次遇到类似任务——直接加载上次的操作手册和记忆，跳过已知的弯路。

它还有一个值得单独说的设计：一套叫GEPA的自我进化引擎（全称Genetic-Pareto Prompt Evolution，UC Berkeley、Stanford、MIT联合开发）。原理类似"进化算法"——AI自己生成多个不同的工作策略，自己跑一遍评估效果，留下好的淘汰差的。传统的AI优化需要上万次评估才能收敛，GEPA只需要100到500次，成本2到10美元。不需要你去调，它自己调自己。

Hermes Agent的设计哲学里有一句话说得很直白：

"一个会遗忘的智能体，不配被称为智能体。"
——Hermes Agent设计哲学

第三件事：让新人定期自己做复盘

研究团队：Anthropic时间：2026年5月6日，在旧金山"Code with Claude"开发者大会上发布来源：claude.com/blog/new-in-claude-managed-agents（2026年5月7日）当前状态：Research Preview（研究预览版），面向企业级Managed Agents

第二件事是"做完一件事就总结"。第三件事更进一步：不只是做完事总结，还要定期回顾一段时间内做过的所有事——找规律。

你见过这种情况吧：某个员工每次做完项目都写复盘，但那些复盘是零散的、互不关联的。写了20份，从来没有人把这20份放在一起看——"这半年反复出现的问题是什么？""哪些做法每次都管用？""哪些错误换了个场景又犯了？"

Anthropic做了一个叫Dreaming（做梦）的功能。让AI在不干活的时候，自动回顾过去一段时间做过的所有事：

回顾
——读取过去最多100个任务的记录
找规律
——哪些问题反复出现了？哪些策略每次都管用？哪些方法被证明是错的？
整理记忆
——重复的合并，过期的清掉，有价值的强化
自我纠正
——回放之前的操作，发现错误，标记"下次别这样"

而且这个过程不需要人催，AI自己决定什么时候该"做梦"了。

Anthropic的原话：

"Together, memory and dreaming form a robust memory system for self-improving agents."
记忆与做梦共同构成了自我改进Agent的强大记忆系统。
——Anthropic, 2026.05.07

他们也特别说明了：这不是AI有意识了——是一个结构化的、定期执行的记忆整理过程。 同期发布的还有Outcomes（结果评估，让AI自动判断任务有没有完成）和Multi-agent Orchestration（多个AI协同工作），都是围绕"让AI越来越强"这个方向。

三件事之间是什么关系

	搭工作环境	做完事自动总结	定期自己复盘
技术名称	Harness Engineering	Hermes Agent	Dreaming
谁在做	Anthropic	Nous Research（开源）	Anthropic
时间	2026年3月	2026年2月	2026年5月
本质	设计方法论	开源产品/框架	平台功能

三件事不是竞争关系，更像是带一个新人的三个阶段：

先搭环境
——给他流程、权限、自检清单、交接本
再建习惯
——做完事就总结，下次越做越好
最后养成复盘能力
——定期回顾，主动发现规律、优化方法

只做其中一个不够。但三个都做到了——你得到的不是一个"需要你盯着才能干活"的新人，而是一个自己能成长的员工。

还有一个信号值得注意

2026年4月24日-26日，全球顶级AI学术会议ICLR在巴西里约热内卢开了一个研讨会——全称"ICLR 2026 Workshop on AI with Recursive Self-Improvement"。这是ICLR历史上第一个专门聚焦"AI自我改进"的学术研讨会。

这个Workshop研究的核心问题是：如何为自我改进的AI系统构建可靠的算法基础？ 覆盖了五个方向：从过去行动中学习（经验学习）、AI为自己生成训练数据（合成数据）、跨视觉/语言/语音的自我改进（多模态）、小模型监督大模型改进（弱到强泛化）、以及在使用过程中变强（推理时扩展）。

更早一些，2025年底斯坦福大学开了一门新课：CS329A: Self-Improving AI Agents。

当顶级学术会议和顶级大学开始为一个方向专门设课、设会议的时候，说明这件事已经从概念变成了正式的研究方向。

你有没有发现一件事

回头看这三项进展——搭工作环境、做完事写总结、定期自己复盘。

这不是什么外星科技。这就是我们对一个优秀员工的期待。

这些技术的研究者们用了各种术语——Harness Engineering、Closed Learning Loop、Dreaming——但拆开来看，底层逻辑都有迹可循：结构化的工作流程、经验的沉淀与复用、定期的反思与自我纠正。 这些东西人类积累了几千年了。

AI在学的，就是人的思维方式。 它不是在发明新东西——它是在把人类已经验证过的方法，用工程化的方式复刻出来，然后做到人做不到的程度：不会忘、不会偷懒、不会"这次就算了下次再说"。

下篇聊一个问题：这件事跟我们有什么关系？