API驱动的AI助手和经过特殊训练的一样强——这意味着什么?

导读：当AI能解奥数、写代码、做科研的时候，为什么我们还是觉得它”不太好用”？这篇论文提出了一个新思路：别再考AI难题了，考考它能不能帮你搞定一天的实际工作。104个真实任务，767个评分点，四个主流Agent全部参加——结果出人意料。

图：AI助手面对日常任务的”终极考验”

🤔 一个被忽视的尴尬

说个你可能也有过的体验。你让AI帮你做一个PPT，第一页还行，第二页开始格式就飘了；你让它帮你规划一次出差，酒店和机票信息查得挺快，但算总价的时候硬是把含税价当成了税前价。嗯，那种感觉——明明每一步都看着挺聪明，合在一起就是差点意思。

这种体验正在变得越来越普遍。一方面，AI在编程竞赛里拿金牌、在科研问题上写出论文级别的回答、在复杂数学推理上碾压大多数人。另一方面呢？普通用户每天真正需要的——帮我把这个Excel表格按条件整理一下、帮我把这个PPT套上附件里的模板、帮我把这几份文件里的信息汇总成一个报告——这些看起来”不难”的事，AI做起来反而经常出问题。

有意思的是，这背后可能不是AI”不够聪明”的问题，而是我们评测AI的方式出了偏差。这篇来自xbench团队的论文《AgentIF-OneDay》正是抓住了这个矛盾。他们提出了一个直击本质的问题：当前的AI评测是不是考错了东西？

这篇论文提出了一套全新的评测框架：不再用编程题或数学题来衡量AI，而是用104个来自真实日常场景的任务——涵盖工作、学习和生活——来测试主流AI助手到底能不能帮你”搞定一天的事”。核心发现是，当前最好的Agent产品也只有64.5%的得分，而且“隐含指令推断”是所有AI助手最薄弱的能力。更令人意外的是，纯靠API搭建的Agent和经过强化学习训练的Agent，表现几乎一样好。

📐 我们之前是怎么评测AI的？

想想看，你现在看到的AI能力排行——比如哪个模型最强——是怎么评出来的？大部分主流评测要么考的是单一能力（比如IFEval测”你让它用特定格式回答它能不能做到”），要么考的是垂直领域（比如SWE-bench专门测代码能力，GAIA测通用推理）。这些评测当然有价值，但它们有一个共同的盲区：它们衡量的不是”普通人用AI的真实体验”。

一个编程高手级别的AI，可能在你让它”把这份PDF里的数据整理到Excel里，格式参照附件里的模板”时翻车。不是因为它读不懂PDF——它完全读得懂——而是因为它需要同时处理好几件事：理解附件格式、提取数据、按照模板排版、还得注意不能改不该改的内容。这种多步骤、多文件、带附件约束的日常任务，恰恰是当前评测体系几乎不碰的地方。

AgentIF-OneDay要补上的，就是这块空白。团队用了”一天”这个概念作为尺度——不是考AI能不能做一件很难的事，而是考它能不能在一天之内，帮你把各种日常工作、学习和生活琐事都处理好。这个思路，说到底就是把评测从实验室拉回了现实世界。

🧩 三种”日常指令”——比你想的要复杂

论文把用户给AI布置日常任务的方式分成了三种类型，每一种都有不同的认知挑战。

第一种：开放工作流执行。用户给了明确的、分步骤的指令，AI需要严格按照顺序一步步执行。听起来简单对吧？实际上，这正是AI最容易”遗忘”指令的场景。论文里有个例子：用户让AI规划NeurIPS 2025的差旅，明确要求”先去官网确认会场地址，再交叉验证另一个可靠来源”。AI确实去查了官网，但可能跳过了交叉验证直接开始推荐航班。五步工作流，漏掉一步，结果就不可信了。这种“长上下文中保持指令忠实度”的能力，远比单步问答难得多。

第二种：隐含指令推断。这是最有趣也最难的一类。用户没有明确说要怎么做，但给了一个附件——可能是PPT模板、Excel数据表、或者是场地平面图——AI需要自己从附件里”读懂”潜规则，然后应用到新任务上。论文中的例子非常生动：用户给了一个PPT模板作为附件，要求AI做新的PPT，但模板里的格式要求（比如左下角的引用标记、每篇文章配一张图）都没有在文字指令里写出来。AI必须自己观察到这些隐含规则，然后遵循它。这就好比你给了装修师傅一张效果图说”照着这个感觉来”，他得自己判断什么是”这个感觉”。

第三种：迭代优化。模拟的是实际协作中的修改场景——用户给了一个初版文件，然后提修改意见，AI需要在现有基础上精确修改，而不是从头来过。比如给了一个SVG场地平面图和一份Excel约束条件表，AI需要修改场地布局来满足所有硬性约束，同时保持设计的可读性。这要求AI既要理解多模态输入（SVG+Excel），又要做状态管理（记住当前布局是什么样的），还得做空间推理（约束条件之间可能互相矛盾）。三种类型里，这种“基于现有内容做增量修改”的能力在实际工作中极其常见，却很少被单独评测。

📏 767个评分点——怎么打分是一门学问

讲到这里你可能会想：这些任务怎么打分？用大模型当评委？对，但这里面的门道不少。

AgentIF-OneDay用的是“实例级评分规则”（Instance-level Rubrics）——每个任务都有自己专属的评分标准，不是一刀切。而且评分标准被拆成了两类：加分项（Bonus）衡量AI做到了多少关键要求，和扣分项（Penalty）衡量AI犯了多少严重错误。每个评分点都是二值的——要么满足要么不满足——最大限度减少AI评委的主观偏差。

打分逻辑也很巧妙。每个任务的得分公式是：先算加分总和减去扣分总和，如果这个差值是负的，就归零（不出现负分），然后再除以该任务的最高可能得分，得到一个0到1之间的归一化分数。最终成绩是所有任务得分的平均值。这种设计保证了一个原则：犯严重错误的惩罚不会被”做对了别的事”所抵消——你犯的错越离谱，分数下降得越厉害，但不会因为你做对了很多事就掩盖掉致命错误。

更有意思的是评测管线的细节。对于需要验证事实的任务（比如”NeurIPS 2025的会场是不是San Diego Convention Center”），AI评委会调用Google搜索来做事实核查。对于需要评价HTML代码的任务，系统会把HTML渲染成网页截图，让视觉语言模型直接”看”结果好不好，而不是让AI去读源代码。这些设计上的小心思，让AI评委和人类评委的一致性达到了80.1%（用Gemini-3-Pro当评委）。

📊 四个Agent的”期中考试”成绩单

论文测了四个主流AI Agent产品：Manus、Genspark、ChatGPT-Agent和Minimax-Agent。先说总成绩：

Agent	总得分	平均延迟(秒)	指令遵循	事实准确性	逻辑功能	负向约束
Manus	0.645	500.0	0.762	0.731	0.693	0.529
Genspark	0.635	484.1	0.766	0.663	0.720	0.824
ChatGPT-Agent	0.626	665.1	0.739	0.687	0.673	0.824
Minimax-Agent	0.562	1416.2	0.709	0.623	0.755	0.588

表1：四个AI Agent的核心能力对比。绿色=最高分，红色=最低分。

几个值得注意的点。首先，最高分只有64.5%。换句话说，即使是当前最强的AI Agent，在真实日常任务上也只有”勉强及格”的水平。想想看——每三个任务就有一个做不好，这个差距放在真实使用场景里体验感是相当明显的。

其次，没有哪个Agent是”全能型选手”。Manus事实准确性最高，但在负向约束上表现最差（容易违规）；Genspark指令遵循最好，但事实准确性一般；Minimax逻辑推理最强，但整体表现落后。这就像四个偏科的学生——有人擅长语文但数学差，有人理科学得好但总犯粗心错误。

再看按场景拆分的成绩：

排名	工作场景	分数	生活场景	分数	学习场景	分数
🥇	ChatGPT-Agent	72.18	Manus	73.40	Genspark	71.19
🥈	Genspark	71.86	ChatGPT-Agent	69.67	Manus	64.41
🥉	Manus	70.27	Genspark	67.85	ChatGPT-Agent	59.29

表2：不同场景下的Agent排名。ChatGPT是办公冠军，Manus是生活助手，Genspark是学习搭档。

ChatGPT在办公场景排第一，Manus在生活场景排第一，Genspark在学习场景排第一。每个产品都有自己的”主场优势”，但一离开主场就容易掉链子。尤其是ChatGPT在学习场景只拿到了59.29分——连及格都没到。这反过来也说明了一个问题：一个优秀的通用Agent，需要在各种场景间保持均衡的能力，而不是只精通某一种。

💡 三个让人意外的事实

意外一：API搭的Agent和经过RL训练的一样强

这个发现可能是整篇论文最有”颠覆性”的结论。Manus和Genspark是纯靠调用大模型API（加上提示工程和外部工具）搭建的Agent，ChatGPT-Agent背后有OpenAI的Agent强化学习训练支持。按理说，经过专门训练的应该更强才对。但结果是：三者的总得分几乎一样——0.645、0.635、0.626。

这意味着什么？意味着基础的Agent能力已经变成了”基础设施”，被内置进了现代大模型里。未来的竞争重点，可能不是”谁的AI更聪明”，而是”谁能把AI更好地适配到特定用户需求上”。就像今天的智能手机——芯片和操作系统大家差距不大，真正拉开差距的是生态和用户体验。

意外二：”隐含指令推断”是所有Agent的阿喀琉斯之踵

三种任务类型里，”开放工作流执行”占了53.8%，”隐含指令推断”占25%，”迭代优化”占21.2%。而结果显示，隐含指令推断是所有Agent表现最弱的能力维度。在论文的案例分析中，即使是最好的系统也难以完美完成这类任务——它们要么格式模仿对了但内容覆盖不全，要么内容理解了但结构一致性没有保持。

这个发现特别值得深思。因为在真实使用中，用户经常不会把所有要求都写得清清楚楚——”照着这个模板做””按照附件里的格式”这种说法太常见了。AI如果读不懂”言外之意”，用户体验就会大打折扣。这和之前RubricBench发现的”27%规则鸿沟”遥相呼应：AI理解明确指令的能力，和理解隐含标准的能力之间，存在着一道不小的鸿沟。

意外三：Manus有没有附件都一样——稳定性惊人

在附件处理方面，大部分Agent有附件时得分会下降——毕竟多了一个需要解析和理解的输入维度。但Manus带附件（0.646）和不带附件（0.644）的得分几乎完全一致。这种稳定性非常罕见，说明Manus在多模态输入处理上做了相当扎实的工程优化。

反观Minimax，不仅总分落后，平均响应时间高达1416秒（约23分钟）——是其他三个Agent的2-3倍。虽然它在逻辑功能维度拿到了最高分（0.755），但这个代价实在太大了。试想一下，你让AI帮你整理一个表格，等了二十多分钟才拿到结果——无论结果多准确，这个体验都是难以接受的。

🔍 评分规则本身，才是最大的贡献

说实话，这篇论文最让我兴奋的部分不是那几个Agent的排名——毕竟产品会迭代，排名随时可能变——而是它构建评测数据的方法论。

传统评测数据要么是研究者自己编的（容易偏向自己的研究偏好），要么是通过规则自动生成的（缺乏真实场景的多样性）。AgentIF-OneDay走了一条中间路线：先让真实用户在自己擅长的领域提交任务，经过多轮专家审核（编辑初审→领域专家验证→作者修订→最终质检），然后用这些高质量人工任务作为种子，通过一个五步自动化管线来扩展数据集规模。

这个五步管线的设计非常精巧。第一步，从种子任务中提取”工作流骨架”——也就是完成这个任务需要的抽象步骤序列。第二步，根据工作流的需求去搜索真实的附件材料。第三步，用固定的工作流模板加上新的附件材料，生成不同场景的新任务。第四步，按照严格的人工标注规范生成评分规则。第五步，过滤和人工修改——只保留有明确可验证答案的任务，去掉依赖相对时间（”上周”→改成具体日期）或需要登录账户的任务。

整个过程的核心思路是：用人类智慧保证”骨架”的质量，用AI效率扩展”血肉”的多样性。这和我们之前在RRD那篇论文里看到的”递归规则分解”思想异曲同工——好的标准不是一蹴而就的，而是需要经过多轮打磨和验证才能成型。

更值得借鉴的是评分规则的设计规范。每条规则必须满足”一对一计分”（一个评分点对应一个验证检查）和”独立验证”（评分点之间不互相依赖），加分项和扣分项必须明确区分（加分测能力，扣分测错误率），而且强调”只评价最终可验证的产出物，不评价中间过程”——比如”成功访问了网站”不会得分，但”根据网站信息正确推荐了航班”会得分。

⚖️ AI当评委靠不靠谱？

论文专门做了一组实验来验证”LLM-as-a-Judge”在AgentIF-OneDay上的一致性。他们构建了包含28个任务、171个评分点的评估集，让人类评委先打分，然后比较不同AI评委和人类的一致率。

结果是：Gemini-3-Pro达到80.1%的一致率，Gemini-2.5-Pro是73.9%，GPT-5.1只有63.8%。这个差距相当大——最强的和最弱的之间差了16个百分点。论文分析，AI评委的主要问题还是那几个老毛病：评分时产生幻觉（凭空编造不存在的扣分理由）、对”简洁度””相对完整性””设计感”这类抽象概念的理解和人类不同。

80.1%的一致率意味着什么？如果把它放在日常场景里，大约每五次评分就有一次会跟人类评委意见相左。对于学术研究来说这个数字可能还行，但如果用来指导产品迭代或者做排名对比，就需要谨慎对待了。这也呼应了之前评测方法论纵览里的核心观察：让AI评判AI的能力，本身就是一个”元能力”问题——它需要的不仅是理解任务的能力，还需要理解”什么是好的标准”的能力。

🎯 这对我们意味着什么

读完这篇论文，有三个观点值得你在下次和别人聊AI评测时抛出来。

观点一：评测的”真实性缺口”比”难度缺口”更值得关注。AI在编程竞赛和奥数上的表现已经接近或超过人类顶尖水平，但在日常任务上的表现却只有60分出头。这说明当前AI能力的瓶颈不在”够不够聪明”，而在”能不能忠实地执行多步骤、多约束的真实任务”。对于做AI产品的团队来说，与其继续在基准测试上刷分，不如把精力放在提升AI在真实工作流中的稳定性上。

观点二：”隐含指令推断”是下一阶段的关键战场。AI理解明确指令已经做得不错了（所有Agent的指令遵循得分都在0.7以上），但从附件、上下文、模板中推断隐含要求的能力仍然很弱。这不仅是技术问题——它涉及到AI能否真正理解人类的”默契”和”惯例”。对于需要和AI深度协作的用户来说，这一点至关重要。

观点三：好的评测数据本身就是最有价值的资产。AgentIF-OneDay的104个任务、767个评分点，不仅仅是评测工具——论文明确提到，这些高质量的指令数据可以作为强化学习的训练数据。在”数据就是护城河”的AI时代，谁能构建出最贴近真实使用场景的评测数据集，谁就同时拥有了训练更好AI的原材料。这套”人工种子+AI扩展”的数据构建方法论，值得每一个做AI评测的团队认真研究。

最危险的差距，不是AI做不到人类能做的事，

而是AI在人类真正需要它的地方，表现得比你想的要差。

而你可能还不知道。

📄 论文信息

标题：AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

作者：Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou 等（xbench团队）

机构：xbench.org

发表：arXiv:2601.20613v2，2026年1月

数据集：104个任务，767个评分点，覆盖19种文件格式

开源：github.com/xbench-ai ｜ huggingface.co/xbench-ai