Nature | AI评估如何兼顾解释性与预测性?通用能力标尺给出新答案

unsetunset基本信息unsetunset

论文标题：General scales unlock AI evaluation with explanatory and predictive power
期刊：Nature（IF≈64.8）
发表时间：2026年4月2日
DOI：10.1038/s41586-026-10303-2
通讯单位：普林斯顿大学、剑桥大学、微软研究院、西班牙瓦伦西亚理工大学等

unsetunset核心突破 🔥unsetunset

当前通用大语言模型（LLMs）发展日新月异，但AI评估一直是行业痛点：传统基准测试的平均准确率只能反映「模型在当前测试集上的表现」，既不能解释模型为什么成功/失败，也没法预测模型在未见过的新任务上的表现，而且随着AI快速迭代，旧评估方法很快就会过时。这项研究开创性地提出了一套基于通用能力标尺的AI评估新框架，将任务需求和AI能力放到同一套可比较的绝对标尺上，同时实现了出色的解释性和预测性：不仅澄清了领域内关于LLM推理能力的诸多矛盾结论，还能在分布外新任务上达到远高于传统黑盒方法的预测准确率，而且这套标尺不依赖现有AI种群，未来AI能力提升后也能平滑扩展，为AI评估的标准化奠定了基础，对AI研发、部署和监管都有重要价值。

unsetunset研究背景 📚unsetunset

随着通用大模型在各个领域落地，对AI能力的准确、可重复评估已经成为迫在眉睫的需求。传统AI评估以基准测试的聚合准确率为核心，本质上是模型能力和测试集难度分布共同作用的结果，既不是模型本身固有的能力，也没法跨基准比较，很容易出现「同一个模型在两个都号称测推理的基准上结果完全矛盾」的问题，更没法预测新任务上的表现。过往的改进方案，无论是心理测量学的因子分析、项目反应理论，还是黑盒预测模型，要么依赖评估时的AI/基准种群，结果很快随着AI迭代过时，要么不可解释、分布外泛化差。因此，领域亟需一套不依赖种群、可解释、能预测新任务性能的通用评估框架。

unsetunset技术创新 💡unsetunset

1. 18个通用独立的比率标尺

这套标尺整合三类维度：11个基础认知能力维度（如语言理解、逻辑推理、元认知等）、5个领域知识维度（自然科学、社会科学、形式科学等）、2个混杂因素维度（非典型性、输入长度，用来捕捉训练污染、任务拼接带来的难度变化）。每个维度从0（无需求）到5+（极高需求）分级，采用绝对比率尺度，不依赖现有AI种群，未来AI能力提升后可以直接扩展更高等级，保持向后兼容。

2. 双剖面可解释评估框架

框架通过两个核心剖面实现解释性：①任务需求剖面：用LLM自动按照标准rubric给每个任务实例标注各维度的需求等级，就能知道这个基准/任务真正需要哪些能力，判断是否满足它宣称的测量目标；②模型能力剖面：通过特征曲线拟合得到模型在每个维度的能力得分（定义为模型有50%概率成功的需求等级），同一个标尺下可以直接跨维度跨模型比较能力强弱。

3. 低成本高泛化的实例级性能预测

用任务的18维需求作为特征训练简单的随机森林评估器，就能预测模型在新实例上的成功概率，计算成本比端到端微调的黑盒模型低了整整6个数量级，预测性能却更好，尤其是在分布外（新任务、新基准）场景下，预测优势非常明显。

unsetunset实验结果unsetunset

Figure 1：能力-需求剖面匹配直接解释性能差异

图表标题：可比的模型能力剖面和基准需求剖面可解释和预测性能结果解读：左图展示了DeepSeek-R1-Distilled-Qwen-14B的18维能力得分，右图展示了四个都号称测量「数学推理」的基准的需求分布。从剖面匹配就能直接预测性能：GSM8K对定量推理、逻辑推理的需求很低，因此模型准确率高达90.5%；OlymMATH Hard对这两个维度的需求接近5，因此准确率只有13.3%；而GPQA虽然推理需求不高，但额外要求自然科学、应用科学等多个领域的知识，因此准确率也远低于OlymMATH Easy，直接解释了为什么同叫推理基准结果差异巨大，澄清了领域内的矛盾结论。

Figure 2：现有大部分基准都缺乏结构效度

图表标题：ADeLe基准库中20个基准的需求剖面结果解读：这张图系统分析了20个常用AI基准的需求分布，研究用两个标准衡量基准质量：灵敏度（覆盖目标能力的全难度范围）和特异性（不混杂无关能力的需求）。结果发现，只有不到一半的基准能满足自己宣称的测量目标，很多基准存在明显缺陷：比如MedCalcBench宣称测医学计算能力，实际最大需求是注意力扫描能力；SAT这类常用基准因为大量题目存在训练污染，非典型性得分远低于正常水平，会高估模型能力。这个结果直接点出了当前AI基准领域的普遍问题。

Figure 3：需求-成功率特征曲线区分不同模型能力

图表标题：15个LLM在18个需求维度的特征曲线结果解读：x轴是需求等级，y轴是模型在该需求等级下的平均成功率，曲线展示了模型成功率随需求升高的变化趋势。研究发现不同维度的曲线特征差异明显：注意力扫描等维度曲线非常陡峭，低需求容易成功，高需求几乎全败；而社会科学知识维度的区分度很低，曲线平缓。推理优化模型（如OpenAI o1、DeepSeek-R1）的曲线在逻辑推理、元认知、心智建模等维度明显优于同尺寸普通大模型，直接证明了推理训练确实提升了这些维度的能力。通过logistic拟合就能从曲线得到模型在该维度的能力得分。

Figure 4：不同家族LLM的能力剖面直观展示强弱

图表标题：15个LLM的能力剖面结果解读：这张图整理了15个不同家族、不同尺寸LLM的18维能力得分，得到了多个有启发的结论：知识类维度的能力得分基本随模型参数增大而升高；推理优化模型哪怕参数较小，在定量推理、逻辑推理、心智建模等维度的得分也远高于同尺寸普通大模型；更重要的是，在绝对标尺下能清晰观察到，当模型参数增加到一定程度后，多数能力的提升出现明显的边际效益递减，这是第一次在非饱和尺度上观察到这个规律，传统的准确率缩放法因为容易饱和，很难发现这个趋势。

unsetunset应用前景与展望unsetunset

这套通用标尺框架为AI评估开辟了全新的方向，应用场景非常广泛：对AI研究者来说，可以用这套框架设计更有结构效度的新基准，整合不同来源的基准实例做跨基准能力比较，还能给模型做精细的能力诊断，解释失败原因、做反事实分析；对落地部署来说，可以自动给新任务标注需求，路由给能力最匹配的大模型，也能提前拒绝超过模型能力范围的请求，提升AI应用的安全性；对AI监管和红队测试来说，统一的标尺让大模型能力评估有了可比较的标准，还能针对性靶向测试模型的薄弱能力。目前这套框架仅针对文本LLM，未来还可以扩展到多模态、具身智能、机器人等其他AI类型，也可以加入安全性、公平性等新的维度，适应AI技术的快速发展。

项目代码和数据已经完全开源：👉 https://kinds-of-intelligence-cfi.github.io/ADELE/

unsetunset生信视角解读unsetunset

其实这套评估思路对当前生信领域的大模型研发非常有启发。现在生信领域已经涌现出大量蛋白大模型、基因组大模型、多组学大模型，但评估其实和通用AI遇到了一模一样的问题：很多研究还是按任务算平均准确率，不同任务的基准没法直接比较，经常出现「模型A在基准1上比模型B好，在基准2上反过来」的矛盾情况；很多基准还存在和文中提到的类似问题：训练集泄露（对应文中的污染问题）、任务混杂了无关能力（比如蛋白结合预测基准其实更容易被序列长度影响，不是真的结合能力），导致评估结果不能反映模型的真实能力。

这篇工作给我们的启示是：生信领域也可以参考这个思路，建立一套适合生信大模型的通用能力需求标尺，比如区分序列模式识别、结构预测、功能理解、药物设计能力等不同维度，然后给每个任务做需求标注，给每个模型做能力剖面，就能得到更可靠、更可比较的评估结果。当然这个方法也有局限：当前v1.0只覆盖了通用文本能力，需要生信研究者扩展适合组学任务的特有维度；另外高难度实例的不足也需要更多数据积累。如果你正在设计生信大模型的评估基准，不妨试试这个思路，提前排查基准的灵敏度和特异性问题，让你的评估结果更可靠。

你在做大模型评估或者生信基准设计的时候，遇到过不同基准结果矛盾的问题吗？欢迎在留言区交流你的看法~