AI 智能体终于越干越聪明了?一把骗不过去的尺子给出了答案

点击↑蓝色字体加关注，一起共阅前沿

深度编译：智驾AI

最近，一个名为 GDPevo 的开源基准测试在 AI 圈炸开了锅。它由 PrismShadow 团队发布，专门用来衡量 AI 智能体（Agent）的"自进化"能力——也就是让 AI 像人一样，做完一批活儿后自己总结经验，下次干得更准、更快、更省。

测试结果令人振奋：主流智能体用自进化策略后，准确率提升 17%~22%，部分还能降低 Token 消耗。又准又省，鱼和熊掌兼得。

一、为什么"自进化"突然成了所有人都在抢的赛道？

想象一下，你有一个新入职的员工。他一开始什么都不会，需要你手把手教。但几周后，他开始自己总结经验、优化工作流程，甚至能独立应对从未见过的新问题。

如果把这个场景里的员工换成 AI，这就是眼下人工智能领域最前沿的方向：自进化 Agent（Self-evolving Agent）。

在 AI 时代，有一条被反复验证的铁律：一件事一旦能被清晰地评估、又能被自动化地去做，那它离被做到极致就不远了。围棋是这样，写代码是这样，做数学题也是这样——只要有一把靠谱的尺子，模型就能顺着这把尺子一路爬到顶。

自进化 Agent 做的，就是给"越干越熟练"这件事造一把尺子。

资本已经先一步用脚投票了。围绕 AI 自进化的创业公司，比如 NeoCognition、Recursive 等，在 2026 年已经募到了数十亿美元的资金。

📌 技术细节：什么是"自进化"？

学术上和"自进化"沾亲带故的概念有两个：持续学习（Continual Learning）——模型在不遗忘旧知识的前提下不断学习新知识；递归自我改进（Recursive Self-Improvement, RSI）——模型不断改进自身的架构和策略。GDPevo 的"自进化"更接近 RSI 的思路：Agent 做完任务后更新内部状态，下次遇到相似任务表现得更好。

但这件事为什么现在这么火？因为它戳中了当前 Agent 最别扭的一个痛点：今天的 Agent 大多是"一次性"的——这一单做得再漂亮，经验也带不到下一单去，每次都从零开始。而自进化想做的，是让 Agent 真正"长记性"。

二、先有尺子，再有赛道

想优化自进化，你得先能测量自进化。

如果连"这个 Agent 到底有没有进化、进化了多少"都说不清，那后面所有"更强的进化策略"都是空中楼阁。

评估自进化有个巨大的陷阱：在测试集上训练。如果你拿去"喂经验"的训练样本和最后考核的测试样本长得太像，那 Agent 只要把答案背下来就能拿高分——这压根不是进化，是作弊。

更麻烦的是，企业场景里的活儿（发票审核、展会事务、保险合规、信贷审批……）有几个共同特点：

规则又多又碎，藏在一堆上下文里
经常需要把好几条规则揉在一起判断
这些"值钱的活儿"（和 GDP 直接挂钩），几乎没有专门的基准能评估 Agent 的自进化能力

于是 PrismShadow 团队做了 GDPevo——据他们介绍，这是第一个在具有真实经济价值（GDP 相关）的任务上、专门评估 Agent 自进化能力的基准。

📌 GDPevo 的基本构成

覆盖 CRM（客户关系管理）、ERP（企业资源计划）、金融（Finance）三大场景，共 12 个任务组、120 个真实企业任务。每个任务组搭建一个共享环境，配有 5 个训练样本 + 5 个测试样本，每个样本都自带一份基于规则的评分脚本。

三、"规则杂交"：一把骗不过去的尺子

GDPevo 最核心的创新，在于它解决了一个经典难题：如何让训练和测试"有关联但不雷同"？

他们的解法叫"规则杂交"，灵感来自遗传算法里的交叉进化。做法分两步：

第一步：把规则拆碎、藏进训练集。

先把复杂的业务逻辑拆成一条条"元规则"，再分散藏到训练样本里。比如在 CRM 里，会埋下"赞助商身份的优先级"和"黑名单策略"；在 ERP 里，则藏进"供应商风控规则"和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中，每个样本只露出一部分。

第二步：把规则重新组合成测试题。

5 个测试样本被设计成这些规则的组合，比如让"优先级"和"黑名单"同时触发。这样一来：

Agent 类型	面对"规则杂交"测试	结果
不会自进化的 Agent	只能看到一地散落的碎规则	拼不出全貌，得分低
会自进化的 Agent	能把碎片归纳成规律	迁移到全新任务上，得分高

一道题，就把"背答案"和"学规则"分得清清楚楚。

除了"规则杂交"，GDPevo 的数据构建流程本身也极具创新性——它采用了一套端到端全自动的 AI 流水线：

场景发现：从公开基准（GDPval、SOP-Bench、JobBench）中提取种子场景
任务合成：多 Agent 协作批量生成候选任务组
质量审核：6 个互相独立的 Reviewer Agent 端到端审计，至少 5 票通过才采用

这种做法的好处很明显：基准出新题的速度比模型记住泄露答案的速度快，基准就永远领先半步、永远有效。

四、三个 Agent，一组高度一致的结论

在 12 个任务组、共 120 个任务上，团队测试了三个不同的 Agent 平台，对比三种方案：

方案	类比人类	做法
base（不进化）	直接上岗	不碰训练集，直接做测试题
fewshot（少样本进化）	看答案学经验	先看训练题和答案，再做题
reflect（反思进化）	自己做再反思	自己硬做训练题 → 被告知对错 → 总结规则 → 再做测试题

三个 Agent 给出了高度一致的结论：

🔥 自进化能把测试集准确率提升约 17%~22%。而且其中两个 Agent（Claude Code 和 Codex）连 Token 消耗都更低了——又准又省。

🔥 亮眼单点数据

在"运营建模（operational financial modeling）"这个场景上：
• Codex (GPT-5.5) 从 42.76% 飙到 92.47%（+49.71 个百分点），花的 token 还比基线少
• Claude Code (Opus 4.8) 的 fewshot 直接干到 100%（起点是 51.76%）
• Panofy (Opus 4.6) 的 reflect 也冲到了 92.47%（起点 62.39%）

以下是三个 Agent 的整体表现（12 个任务组均值）：

Agent	基线准确率	最佳进化准确率	准确率提升	Token 变化
Codex GPT-5.5 xhigh	48.35%	67.13%	+18.21 pp	-25.75%
Claude Code Opus 4.8 xhigh	49.11%	70.90%	+20.31 pp	-8.69%
Panofy Opus 4.6 high	50.17%	68.24%	+17.94 pp	+11.82%

数据来源：GitHub · Prism-Shadow/GDPevo

五、背后信号：Agent 已经"会自学"了

这组数据传递了一个挺鼓舞人的信号：当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西，并把这份本事迁移到全新的任务上。

这个发现和已有的一些研究（如 Recursive 团队的自动化 AI 研究工作）不谋而合。但 GDPevo 的独特之处在于：

它用的是确定性规则打分器，不是 LLM-as-a-Judge。分数可复现、失败可追溯，基准本身变成了一个 Agent 诊断工具
它聚焦"和 GDP 直接挂钩"的真实企业任务，不是实验室里的玩具题
它的数据构建流程完全开源，任何人都可以带上自己的 Agent 或业务场景来玩

换句话说，GDPevo 不只是一个排行榜，更像是一把"骗不过去的尺子"——它用"规则杂交"逼出真本事，用自动化流水线保证永远领先半步，用确定性评分让每一次失败都变成进步的方向标。

💡 一般报道不会提的点

GDPevo 的"规则杂交"设计有一个深层含义：它实际上在测试 Agent 的规则抽象能力，而不只是模式匹配能力。这意味着，如果一个 Agent 能在"规则杂交"测试中表现优异，它很可能也具备了处理真实企业场景中"跨规则组合推理"的能力——而这恰恰是企业级 AI 落地最关键、也最困难的一环。从这个角度看，GDPevo 的 120 个任务虽然不多，但每一道都是精心设计的"压力测试"。

六、行业趋势：自进化，下一个基础设施级能力

从 GDPevo 的发布，我们可以读出几个值得关注的行业信号：

1. Agent 评估正在从"做题"走向"做事"。过去的基准（MMLU、GPQA 等）测的是知识储备和推理能力，而 GDPevo 测的是在真实企业环境中"越干越熟练"的能力——这更接近企业采购 Agent 时的真实需求。

2. "效率"和"效果"不再是取舍关系。Codex 和 Claude Code 在自进化后不仅更准，还更省 Token。这说明自进化策略（尤其 reflect 式反思）能让 Agent 学会"聪明地干活"，而不是单纯靠堆 token 砸出正确答案。

3. 开源基准正在成为 Agent 竞赛的"新基建"。GDPevo 的完整流程、数据和结果全部开源，任何人可以复现、扩展、拿来测试自己的 Agent。这种开放态度正在加速整个领域的迭代速度。

正如 PrismShadow 团队在发布时所说："我们的目标从来不是再搞一个排行榜，而是给'自进化 Agent'这件事添一把柴。"

💬 互动话题：你觉得 AI Agent 的"自进化"能力，会在哪些行业率先产生商业价值？欢迎留言讨论~

📚 参考来源

1. PrismShadow/GDPevo — GitHub 开源项目（官方一手）
类型：开源基准 / 代码库｜检索时间：2026-06-25
https://github.com/Prism-Shadow/GDPevo

2. GAIR Paper 104｜Agent 真的能自我进化吗？ — 新浪科技（PrismShadow 团队供稿）
类型：团队官方博客文章｜检索时间：2026-06-25
https://finance.sina.com.cn/tech/...

3. Trendshift · GDPevo — GitHub 趋势页面
类型：项目趋势追踪｜检索时间：2026-06-25
https://trendshift.io/repositories/61539

— END —