点击↑蓝色字体加关注,一起共阅前沿
深度编译:智驾AI
最近,一个名为 GDPevo 的开源基准测试在 AI 圈炸开了锅。它由 PrismShadow 团队发布,专门用来衡量 AI 智能体(Agent)的"自进化"能力——也就是让 AI 像人一样,做完一批活儿后自己总结经验,下次干得更准、更快、更省。
测试结果令人振奋:主流智能体用自进化策略后,准确率提升 17%~22%,部分还能降低 Token 消耗。又准又省,鱼和熊掌兼得。
一、为什么"自进化"突然成了所有人都在抢的赛道?
想象一下,你有一个新入职的员工。他一开始什么都不会,需要你手把手教。但几周后,他开始自己总结经验、优化工作流程,甚至能独立应对从未见过的新问题。
如果把这个场景里的员工换成 AI,这就是眼下人工智能领域最前沿的方向:自进化 Agent(Self-evolving Agent)。
在 AI 时代,有一条被反复验证的铁律:一件事一旦能被清晰地评估、又能被自动化地去做,那它离被做到极致就不远了。围棋是这样,写代码是这样,做数学题也是这样——只要有一把靠谱的尺子,模型就能顺着这把尺子一路爬到顶。
自进化 Agent 做的,就是给"越干越熟练"这件事造一把尺子。
资本已经先一步用脚投票了。围绕 AI 自进化的创业公司,比如 NeoCognition、Recursive 等,在 2026 年已经募到了数十亿美元的资金。
📌 技术细节:什么是"自进化"?
学术上和"自进化"沾亲带故的概念有两个:持续学习(Continual Learning)——模型在不遗忘旧知识的前提下不断学习新知识;递归自我改进(Recursive Self-Improvement, RSI)——模型不断改进自身的架构和策略。GDPevo 的"自进化"更接近 RSI 的思路:Agent 做完任务后更新内部状态,下次遇到相似任务表现得更好。
但这件事为什么现在这么火?因为它戳中了当前 Agent 最别扭的一个痛点:今天的 Agent 大多是"一次性"的——这一单做得再漂亮,经验也带不到下一单去,每次都从零开始。而自进化想做的,是让 Agent 真正"长记性"。
二、先有尺子,再有赛道
想优化自进化,你得先能测量自进化。
如果连"这个 Agent 到底有没有进化、进化了多少"都说不清,那后面所有"更强的进化策略"都是空中楼阁。
评估自进化有个巨大的陷阱:在测试集上训练。如果你拿去"喂经验"的训练样本和最后考核的测试样本长得太像,那 Agent 只要把答案背下来就能拿高分——这压根不是进化,是作弊。
更麻烦的是,企业场景里的活儿(发票审核、展会事务、保险合规、信贷审批……)有几个共同特点:
- 规则又多又碎,藏在一堆上下文里
- 经常需要把好几条规则揉在一起判断
- 这些"值钱的活儿"(和 GDP 直接挂钩),几乎没有专门的基准能评估 Agent 的自进化能力
于是 PrismShadow 团队做了 GDPevo——据他们介绍,这是第一个在具有真实经济价值(GDP 相关)的任务上、专门评估 Agent 自进化能力的基准。
📌 GDPevo 的基本构成
覆盖 CRM(客户关系管理)、ERP(企业资源计划)、金融(Finance)三大场景,共 12 个任务组、120 个真实企业任务。每个任务组搭建一个共享环境,配有 5 个训练样本 + 5 个测试样本,每个样本都自带一份基于规则的评分脚本。
三、"规则杂交":一把骗不过去的尺子
GDPevo 最核心的创新,在于它解决了一个经典难题:如何让训练和测试"有关联但不雷同"?
他们的解法叫"规则杂交",灵感来自遗传算法里的交叉进化。做法分两步:
第一步:把规则拆碎、藏进训练集。
先把复杂的业务逻辑拆成一条条"元规则",再分散藏到训练样本里。比如在 CRM 里,会埋下"赞助商身份的优先级"和"黑名单策略";在 ERP 里,则藏进"供应商风控规则"和对应的应对措施。关键在于——这些规则被打散到 5 个训练样本中,每个样本只露出一部分。
第二步:把规则重新组合成测试题。
5 个测试样本被设计成这些规则的组合,比如让"优先级"和"黑名单"同时触发。这样一来:
| Agent 类型 | 面对"规则杂交"测试 | 结果 |
|---|---|---|
| 不会自进化的 Agent | 只能看到一地散落的碎规则 | 拼不出全貌,得分低 |
| 会自进化的 Agent | 能把碎片归纳成规律 | 迁移到全新任务上,得分高 |
一道题,就把"背答案"和"学规则"分得清清楚楚。
除了"规则杂交",GDPevo 的数据构建流程本身也极具创新性——它采用了一套端到端全自动的 AI 流水线:
- 场景发现:从公开基准(GDPval、SOP-Bench、JobBench)中提取种子场景
- 任务合成:多 Agent 协作批量生成候选任务组
- 质量审核:6 个互相独立的 Reviewer Agent 端到端审计,至少 5 票通过才采用
这种做法的好处很明显:基准出新题的速度比模型记住泄露答案的速度快,基准就永远领先半步、永远有效。
四、三个 Agent,一组高度一致的结论
在 12 个任务组、共 120 个任务上,团队测试了三个不同的 Agent 平台,对比三种方案:
| 方案 | 类比人类 | 做法 |
|---|---|---|
| base(不进化) | 直接上岗 | 不碰训练集,直接做测试题 |
| fewshot(少样本进化) | 看答案学经验 | 先看训练题和答案,再做题 |
| reflect(反思进化) | 自己做再反思 | 自己硬做训练题 → 被告知对错 → 总结规则 → 再做测试题 |
三个 Agent 给出了高度一致的结论:
🔥 自进化能把测试集准确率提升约 17%~22%。而且其中两个 Agent(Claude Code 和 Codex)连 Token 消耗都更低了——又准又省。
🔥 亮眼单点数据
在"运营建模(operational financial modeling)"这个场景上:
• Codex (GPT-5.5) 从 42.76% 飙到 92.47%(+49.71 个百分点),花的 token 还比基线少
• Claude Code (Opus 4.8) 的 fewshot 直接干到 100%(起点是 51.76%)
• Panofy (Opus 4.6) 的 reflect 也冲到了 92.47%(起点 62.39%)
以下是三个 Agent 的整体表现(12 个任务组均值):
| Agent | 基线准确率 | 最佳进化准确率 | 准确率提升 | Token 变化 |
|---|---|---|---|---|
| Codex GPT-5.5 xhigh |
48.35% | 67.13% | +18.21 pp | -25.75% |
| Claude Code Opus 4.8 xhigh |
49.11% | 70.90% | +20.31 pp | -8.69% |
| Panofy Opus 4.6 high |
50.17% | 68.24% | +17.94 pp | +11.82% |
数据来源:GitHub · Prism-Shadow/GDPevo
五、背后信号:Agent 已经"会自学"了
这组数据传递了一个挺鼓舞人的信号:当前的 Agent 已经具备了一定的自进化能力——它们真的能从过往经验里学到东西,并把这份本事迁移到全新的任务上。
这个发现和已有的一些研究(如 Recursive 团队的自动化 AI 研究工作)不谋而合。但 GDPevo 的独特之处在于:
- 它用的是确定性规则打分器,不是 LLM-as-a-Judge。分数可复现、失败可追溯,基准本身变成了一个 Agent 诊断工具
- 它聚焦"和 GDP 直接挂钩"的真实企业任务,不是实验室里的玩具题
- 它的数据构建流程完全开源,任何人都可以带上自己的 Agent 或业务场景来玩
换句话说,GDPevo 不只是一个排行榜,更像是一把"骗不过去的尺子"——它用"规则杂交"逼出真本事,用自动化流水线保证永远领先半步,用确定性评分让每一次失败都变成进步的方向标。
💡 一般报道不会提的点
GDPevo 的"规则杂交"设计有一个深层含义:它实际上在测试 Agent 的规则抽象能力,而不只是模式匹配能力。这意味着,如果一个 Agent 能在"规则杂交"测试中表现优异,它很可能也具备了处理真实企业场景中"跨规则组合推理"的能力——而这恰恰是企业级 AI 落地最关键、也最困难的一环。从这个角度看,GDPevo 的 120 个任务虽然不多,但每一道都是精心设计的"压力测试"。
六、行业趋势:自进化,下一个基础设施级能力
从 GDPevo 的发布,我们可以读出几个值得关注的行业信号:
1. Agent 评估正在从"做题"走向"做事"。过去的基准(MMLU、GPQA 等)测的是知识储备和推理能力,而 GDPevo 测的是在真实企业环境中"越干越熟练"的能力——这更接近企业采购 Agent 时的真实需求。
2. "效率"和"效果"不再是取舍关系。Codex 和 Claude Code 在自进化后不仅更准,还更省 Token。这说明自进化策略(尤其 reflect 式反思)能让 Agent 学会"聪明地干活",而不是单纯靠堆 token 砸出正确答案。
3. 开源基准正在成为 Agent 竞赛的"新基建"。GDPevo 的完整流程、数据和结果全部开源,任何人可以复现、扩展、拿来测试自己的 Agent。这种开放态度正在加速整个领域的迭代速度。
正如 PrismShadow 团队在发布时所说:"我们的目标从来不是再搞一个排行榜,而是给'自进化 Agent'这件事添一把柴。"
💬 互动话题:你觉得 AI Agent 的"自进化"能力,会在哪些行业率先产生商业价值?欢迎留言讨论~
📚 参考来源
1. PrismShadow/GDPevo — GitHub 开源项目(官方一手)
类型:开源基准 / 代码库 | 检索时间:2026-06-25
https://github.com/Prism-Shadow/GDPevo
2. GAIR Paper 104|Agent 真的能自我进化吗? — 新浪科技(PrismShadow 团队供稿)
类型:团队官方博客文章 | 检索时间:2026-06-25
https://finance.sina.com.cn/tech/...
3. Trendshift · GDPevo — GitHub 趋势页面
类型:项目趋势追踪 | 检索时间:2026-06-25
https://trendshift.io/repositories/61539

— END —
夜雨聆风