2026 年 5 月,OpenAI 的模型反证了一个离散几何核心猜想。
这件事在数学圈是大事——AI 第一次做出真正意义的数学发现,不是刷 benchmark 分数,是反证一个开放猜想。
同一周,DeepMind 发了 Co-Scientist(multi-agent AI research partner)和 AlphaEvolve(Gemini 驱动的算法设计 agent)。Google 发 Empirical Research Assistance(AI 协助科研工作流)。Anthropic 完成 65 亿美元 Series H 估值 965 亿美元。
如果你只看技术新闻,这一连串事件加起来意味着——AI 终于跨过了"做科学"这条线。
但有一件事你可能没意识到——
当 AI 开始做科学,"评估它做得好不好"成了新的根本瓶颈。
而这个瓶颈,比训练能力更难突破。
一组扎心的数字
2026 年 6 月 1 日 arxiv 提交了 250 篇 cs.AI / cs.CL / cs.IT / cs.LG 论文。
我们做了个简单的分析——按关键词看每篇论文涉及什么主题:
当天 250 篇 cs.AI 论文里——
跟 agent 相关的: 52 篇 20.8%
跟模型架构相关的: 31 篇 12.4%
跟持续学习/记忆相关的: 34 篇 13.6%
跟"标准/就业"相关的: 3 篇 1.2%
跟 evaluation 相关的: 134 篇 53.6% ⚡⚡⚡超过一半的当天 cs.AI 论文跟评估/benchmark/judge/reward model 直接相关。
这不是一天的偶然——这是 2024-2025 集体趋势浮上水面的明显信号。AI 圈的研究焦点已经从"让 AI 更强"集体转移到"评估 AI 做得好不好"。
而这个转移的直接触发因素就是 AI 开始做科学。
为什么"AI 做科学"暴露了评估的瓶颈
要看清楚这个问题,得拆解什么叫"评估"。
传统 AI 评估——给模型一个 prompt,看它输出和"标准答案"是否一致。这套机制在 2015-2022 年统治整个 AI 圈——MMLU / GSM8K / HumanEval / SQuAD 全部是这个范式。
但 2024-2026 年 AI 做的事不一样了——
任务 有"标准答案"吗? 谁能评判好坏?
─────────────────────────────────────────────────────────────
解一道数学题(GSM8K) 有 答案对照
写一段代码(HumanEval) 有 跑测试套件
答多选题(MMLU) 有 选项对照
─────────────────────────────────────────────────────────────
反证一个开放数学猜想(OpenAI) 没有 ★ 只有数学家能评判
提出 100 个研究想法(Co-Scientist)没有 ★ 只有领域专家能评判
设计一个新算法(AlphaEvolve) 部分 ★ 同行评议级
做临床决策(AutoMedBench) 部分 ★ 医生 + 临床数据
长期 EHR 流程(ClinEnv) 没有 ★ 多维度临床判断所有"AI 做科学"类任务都有一个共同点——没有可以批量自动评分的标准答案。
OpenAI 反证离散几何猜想这件事——只有少数顶尖数学家能评判它真的对了。这种评判没法外包给 LLM-as-judge(因为 judge 模型没有数学家级别的能力)、没法用 benchmark 自动评分(因为没有标准答案集)、只能靠人。
但人不可扩展——一个数学家审一篇 AI 论文要几天。AI 一天能产出 100 篇候选——人类数学家审不过来。
这件事的核心矛盾——AI 的产出速度可以指数级提升(堆算力 + 数据),但评估能力的扩展极慢(受制于专家数量 + 判断时间)。
SoundnessBench 直接命名了这个尴尬
2026 年 6 月 1 日 Hugging Face Daily Papers 上有一篇叫 SoundnessBench——评估 AI 科学家能否区分好坏研究想法的 benchmark。
这件事的存在本身就是一个迟到的承认——AI 圈花了 3 年让 AI 能提出研究想法,但还没人系统研究"AI 提的想法到底好不好"。
同一天的 cs.AI 250 篇里还有:
• AutoMedBench——医疗 AI 自动研究的评估 • ClinEnv——临床长流程 agent 评估环境 • AGENTCL——agent 持续学习的严格评估 • Monitoring Agentic Systems Before They're Reliable——在 agent 可靠之前监控它 • BADGER——桥接 agentic 和确定性评估
这一批论文做的不是"让 AI 更强"——是"如何判断 AI 做得好不好"。
而判断好坏这件事,比让 AI 做事难得多。让 AI 做事——堆算力 + 数据 + 训练框架,3 年可以从弱到强。判断好坏——需要领域专家 + 时间积累 + 多维度判断——这件事 30 年也未必能突破。
ThoughtLink 一直说的判断——这周变成可量化的事实
ThoughtLink 5 月加方向 D"AI 评估"时的核心判断是这样的:
AI 不缺训练能力,缺评估能力。
评估 = 把场景效果好坏说清楚 = 想清楚的另一种形态。
5 月加这个判断时——基于的还是"个人判断 + 行业感觉"。
6 月 1 日这 250 篇 cs.AI 论文给了这个判断第一个数据级证明——53.6% 的当天 cs.AI 论文焦点是评估。
不是边缘话题,是焦点本身。这件事在 2024 年还不会发生——那时候 99% 论文焦点是模型能力提升。2026 年焦点转移了——AI 圈集体承认评估能力的瓶颈正在成为核心矛盾。
而这件事——给所有做 AI 产品 / 创业 / 内容的人一个前瞻视角:
2020-2024 年最值钱的能力: 训练能力(算力 + 数据 + 调优)
2024-2026 年正在升值的能力: 评估能力(场景理解 + 领域判断)
2026-2030 年最稀缺的能力: "什么算做得好" 的判断对你的含义
如果你做 AI 应用 / AI 创业:
evaluation 集体爆发是个前瞻信号——下一个 3 年的 AI 战场会从"训练更强的模型"转移到"建立更精准的评估能力"。
谁能在你的垂直场景里建立可信的、可量化的、可持续改进的评估——谁就拿到了那个场景里 agent 的护城河。
不是模型的护城河——是评估的护城河。Anthropic / OpenAI 替代不了这件事——他们做通用模型,做不了你具体场景里"什么算好"的定义。
对个人创作者 / 知识工作者:
AI 越能做事 → "你能不能判断它做得好不好"就越值钱。这件事不是技术能力——是领域判断 + 品味 + 时间积累。
这恰恰是 AI 替代不了你的最后阵地。当 AI 能写代码、做 PPT、跑分析的时候——你的价值不在"做",在"评判"。
收尾——AI 越强,人的"评估能力"越值钱
5 月 OpenAI 反证离散几何猜想——AI 史上第一个真数学突破。
同月 DeepMind Co-Scientist / AlphaEvolve / Google ERA / Anthropic 965 亿美元 估值——AI 圈进入新一轮黄金期。
6 月 1 日 cs.AI 当日论文 53.6% 焦点是 evaluation——AI 圈集体承认评估能力是新瓶颈。
这一连串事件指向同一个判断:
答案在贬值(AI 能做了)
问题在升值(谁来定义要做什么)
评估在升值(谁来判断做得好不好)3 年前 AI 圈说"模型变强就够了"。
3 年后 AI 圈承认"判断模型做得好不好"是更难的事。
而这件事——
就是 ThoughtLink 一直在做的"左半边"——把场景效果好坏说清楚 = 想清楚做什么。
AI 越强,人的左半边能力越值钱。
5/6 月这一连串事件,是这个判断的第一个数据级证明。
数据来源:arxiv cs.AI/CL/IT/LG 2026-06-01 当日 250 篇 ThoughtLink lens 分析 + Hugging Face Daily Papers 06-01 + OpenAI / DeepMind / Google / Anthropic 5-6 月公告
方法学:signal-loop + ThoughtLink LENS 6 维度 + 方向 D 关键词
完整数据:signals/2026-06/arxiv-jun-01-250-analysis.md
夜雨聆风