乐于分享
好东西不私藏

API驱动的AI助手和经过特殊训练的一样强——这意味着什么?

API驱动的AI助手和经过特殊训练的一样强——这意味着什么?

导读:当AI能解奥数、写代码、做科研的时候,为什么我们还是觉得它”不太好用”?这篇论文提出了一个新思路:别再考AI难题了,考考它能不能帮你搞定一天的实际工作。104个真实任务,767个评分点,四个主流Agent全部参加——结果出人意料。
图:AI助手面对日常任务的”终极考验”

🤔 一个被忽视的尴尬

说个你可能也有过的体验。你让AI帮你做一个PPT,第一页还行,第二页开始格式就飘了;你让它帮你规划一次出差,酒店和机票信息查得挺快,但算总价的时候硬是把含税价当成了税前价。嗯,那种感觉——明明每一步都看着挺聪明,合在一起就是差点意思。
这种体验正在变得越来越普遍。一方面,AI在编程竞赛里拿金牌、在科研问题上写出论文级别的回答、在复杂数学推理上碾压大多数人。另一方面呢?普通用户每天真正需要的——帮我把这个Excel表格按条件整理一下、帮我把这个PPT套上附件里的模板、帮我把这几份文件里的信息汇总成一个报告——这些看起来”不难”的事,AI做起来反而经常出问题。
有意思的是,这背后可能不是AI”不够聪明”的问题,而是我们评测AI的方式出了偏差。这篇来自xbench团队的论文《AgentIF-OneDay》正是抓住了这个矛盾。他们提出了一个直击本质的问题:当前的AI评测是不是考错了东西?
这篇论文提出了一套全新的评测框架:不再用编程题或数学题来衡量AI,而是用104个来自真实日常场景的任务——涵盖工作、学习和生活——来测试主流AI助手到底能不能帮你”搞定一天的事”。核心发现是,当前最好的Agent产品也只有64.5%的得分,而且“隐含指令推断”是所有AI助手最薄弱的能力。更令人意外的是,纯靠API搭建的Agent和经过强化学习训练的Agent,表现几乎一样好。

📐 我们之前是怎么评测AI的?

想想看,你现在看到的AI能力排行——比如哪个模型最强——是怎么评出来的?大部分主流评测要么考的是单一能力(比如IFEval测”你让它用特定格式回答它能不能做到”),要么考的是垂直领域(比如SWE-bench专门测代码能力,GAIA测通用推理)。这些评测当然有价值,但它们有一个共同的盲区:它们衡量的不是”普通人用AI的真实体验”
一个编程高手级别的AI,可能在你让它”把这份PDF里的数据整理到Excel里,格式参照附件里的模板”时翻车。不是因为它读不懂PDF——它完全读得懂——而是因为它需要同时处理好几件事:理解附件格式、提取数据、按照模板排版、还得注意不能改不该改的内容。这种多步骤、多文件、带附件约束的日常任务,恰恰是当前评测体系几乎不碰的地方。
AgentIF-OneDay要补上的,就是这块空白。团队用了”一天”这个概念作为尺度——不是考AI能不能做一件很难的事,而是考它能不能在一天之内,帮你把各种日常工作、学习和生活琐事都处理好。这个思路,说到底就是把评测从实验室拉回了现实世界。

🧩 三种”日常指令”——比你想的要复杂

论文把用户给AI布置日常任务的方式分成了三种类型,每一种都有不同的认知挑战。
第一种:开放工作流执行。用户给了明确的、分步骤的指令,AI需要严格按照顺序一步步执行。听起来简单对吧?实际上,这正是AI最容易”遗忘”指令的场景。论文里有个例子:用户让AI规划NeurIPS 2025的差旅,明确要求”先去官网确认会场地址,再交叉验证另一个可靠来源”。AI确实去查了官网,但可能跳过了交叉验证直接开始推荐航班。五步工作流,漏掉一步,结果就不可信了。这种“长上下文中保持指令忠实度”的能力,远比单步问答难得多。
第二种:隐含指令推断。这是最有趣也最难的一类。用户没有明确说要怎么做,但给了一个附件——可能是PPT模板、Excel数据表、或者是场地平面图——AI需要自己从附件里”读懂”潜规则,然后应用到新任务上。论文中的例子非常生动:用户给了一个PPT模板作为附件,要求AI做新的PPT,但模板里的格式要求(比如左下角的引用标记、每篇文章配一张图)都没有在文字指令里写出来。AI必须自己观察到这些隐含规则,然后遵循它。这就好比你给了装修师傅一张效果图说”照着这个感觉来”,他得自己判断什么是”这个感觉”。
第三种:迭代优化。模拟的是实际协作中的修改场景——用户给了一个初版文件,然后提修改意见,AI需要在现有基础上精确修改,而不是从头来过。比如给了一个SVG场地平面图和一份Excel约束条件表,AI需要修改场地布局来满足所有硬性约束,同时保持设计的可读性。这要求AI既要理解多模态输入(SVG+Excel),又要做状态管理(记住当前布局是什么样的),还得做空间推理(约束条件之间可能互相矛盾)。三种类型里,这种“基于现有内容做增量修改”的能力在实际工作中极其常见,却很少被单独评测。

📏 767个评分点——怎么打分是一门学问

讲到这里你可能会想:这些任务怎么打分?用大模型当评委?对,但这里面的门道不少。
AgentIF-OneDay用的是“实例级评分规则”(Instance-level Rubrics)——每个任务都有自己专属的评分标准,不是一刀切。而且评分标准被拆成了两类:加分项(Bonus)衡量AI做到了多少关键要求,和扣分项(Penalty)衡量AI犯了多少严重错误。每个评分点都是二值的——要么满足要么不满足——最大限度减少AI评委的主观偏差。
打分逻辑也很巧妙。每个任务的得分公式是:先算加分总和减去扣分总和,如果这个差值是负的,就归零(不出现负分),然后再除以该任务的最高可能得分,得到一个0到1之间的归一化分数。最终成绩是所有任务得分的平均值。这种设计保证了一个原则:犯严重错误的惩罚不会被”做对了别的事”所抵消——你犯的错越离谱,分数下降得越厉害,但不会因为你做对了很多事就掩盖掉致命错误。
更有意思的是评测管线的细节。对于需要验证事实的任务(比如”NeurIPS 2025的会场是不是San Diego Convention Center”),AI评委会调用Google搜索来做事实核查。对于需要评价HTML代码的任务,系统会把HTML渲染成网页截图,让视觉语言模型直接”看”结果好不好,而不是让AI去读源代码。这些设计上的小心思,让AI评委和人类评委的一致性达到了80.1%(用Gemini-3-Pro当评委)。

📊 四个Agent的”期中考试”成绩单

论文测了四个主流AI Agent产品:Manus、Genspark、ChatGPT-Agent和Minimax-Agent。先说总成绩:
Agent
总得分
平均延迟(秒)
指令遵循
事实准确性
逻辑功能
负向约束
Manus
0.645
500.0
0.762
0.731
0.693
0.529
Genspark
0.635 484.1 0.766
0.663
0.720
0.824
ChatGPT-Agent
0.626
665.1
0.739
0.687
0.673
0.824
Minimax-Agent
0.562
1416.2
0.709
0.623
0.755
0.588
表1:四个AI Agent的核心能力对比。绿色=最高分,红色=最低分。
几个值得注意的点。首先,最高分只有64.5%。换句话说,即使是当前最强的AI Agent,在真实日常任务上也只有”勉强及格”的水平。想想看——每三个任务就有一个做不好,这个差距放在真实使用场景里体验感是相当明显的。
其次,没有哪个Agent是”全能型选手”。Manus事实准确性最高,但在负向约束上表现最差(容易违规);Genspark指令遵循最好,但事实准确性一般;Minimax逻辑推理最强,但整体表现落后。这就像四个偏科的学生——有人擅长语文但数学差,有人理科学得好但总犯粗心错误。
再看按场景拆分的成绩:
排名
工作场景
分数
生活场景
分数
学习场景
分数
🥇
ChatGPT-Agent
72.18
Manus
73.40
Genspark
71.19
🥈
Genspark
71.86
ChatGPT-Agent
69.67
Manus
64.41
🥉
Manus
70.27
Genspark
67.85
ChatGPT-Agent
59.29
表2:不同场景下的Agent排名。ChatGPT是办公冠军,Manus是生活助手,Genspark是学习搭档。
ChatGPT在办公场景排第一,Manus在生活场景排第一,Genspark在学习场景排第一。每个产品都有自己的”主场优势”,但一离开主场就容易掉链子。尤其是ChatGPT在学习场景只拿到了59.29分——连及格都没到。这反过来也说明了一个问题:一个优秀的通用Agent,需要在各种场景间保持均衡的能力,而不是只精通某一种。

💡 三个让人意外的事实

意外一:API搭的Agent和经过RL训练的一样强
这个发现可能是整篇论文最有”颠覆性”的结论。Manus和Genspark是纯靠调用大模型API(加上提示工程和外部工具)搭建的Agent,ChatGPT-Agent背后有OpenAI的Agent强化学习训练支持。按理说,经过专门训练的应该更强才对。但结果是:三者的总得分几乎一样——0.645、0.635、0.626。
这意味着什么?意味着基础的Agent能力已经变成了”基础设施”,被内置进了现代大模型里。未来的竞争重点,可能不是”谁的AI更聪明”,而是”谁能把AI更好地适配到特定用户需求上”。就像今天的智能手机——芯片和操作系统大家差距不大,真正拉开差距的是生态和用户体验。
意外二:”隐含指令推断”是所有Agent的阿喀琉斯之踵
三种任务类型里,”开放工作流执行”占了53.8%,”隐含指令推断”占25%,”迭代优化”占21.2%。而结果显示,隐含指令推断是所有Agent表现最弱的能力维度。在论文的案例分析中,即使是最好的系统也难以完美完成这类任务——它们要么格式模仿对了但内容覆盖不全,要么内容理解了但结构一致性没有保持。
这个发现特别值得深思。因为在真实使用中,用户经常不会把所有要求都写得清清楚楚——”照着这个模板做””按照附件里的格式”这种说法太常见了。AI如果读不懂”言外之意”,用户体验就会大打折扣。这和之前RubricBench发现的”27%规则鸿沟”遥相呼应:AI理解明确指令的能力,和理解隐含标准的能力之间,存在着一道不小的鸿沟
意外三:Manus有没有附件都一样——稳定性惊人
在附件处理方面,大部分Agent有附件时得分会下降——毕竟多了一个需要解析和理解的输入维度。但Manus带附件(0.646)和不带附件(0.644)的得分几乎完全一致。这种稳定性非常罕见,说明Manus在多模态输入处理上做了相当扎实的工程优化。
反观Minimax,不仅总分落后,平均响应时间高达1416秒(约23分钟)——是其他三个Agent的2-3倍。虽然它在逻辑功能维度拿到了最高分(0.755),但这个代价实在太大了。试想一下,你让AI帮你整理一个表格,等了二十多分钟才拿到结果——无论结果多准确,这个体验都是难以接受的。

🔍 评分规则本身,才是最大的贡献

说实话,这篇论文最让我兴奋的部分不是那几个Agent的排名——毕竟产品会迭代,排名随时可能变——而是它构建评测数据的方法论。
传统评测数据要么是研究者自己编的(容易偏向自己的研究偏好),要么是通过规则自动生成的(缺乏真实场景的多样性)。AgentIF-OneDay走了一条中间路线:先让真实用户在自己擅长的领域提交任务,经过多轮专家审核(编辑初审→领域专家验证→作者修订→最终质检),然后用这些高质量人工任务作为种子,通过一个五步自动化管线来扩展数据集规模。
这个五步管线的设计非常精巧。第一步,从种子任务中提取”工作流骨架”——也就是完成这个任务需要的抽象步骤序列。第二步,根据工作流的需求去搜索真实的附件材料。第三步,用固定的工作流模板加上新的附件材料,生成不同场景的新任务。第四步,按照严格的人工标注规范生成评分规则。第五步,过滤和人工修改——只保留有明确可验证答案的任务,去掉依赖相对时间(”上周”→改成具体日期)或需要登录账户的任务。
整个过程的核心思路是:用人类智慧保证”骨架”的质量,用AI效率扩展”血肉”的多样性。这和我们之前在RRD那篇论文里看到的”递归规则分解”思想异曲同工——好的标准不是一蹴而就的,而是需要经过多轮打磨和验证才能成型。
更值得借鉴的是评分规则的设计规范。每条规则必须满足”一对一计分”(一个评分点对应一个验证检查)和”独立验证”(评分点之间不互相依赖),加分项和扣分项必须明确区分(加分测能力,扣分测错误率),而且强调”只评价最终可验证的产出物,不评价中间过程”——比如”成功访问了网站”不会得分,但”根据网站信息正确推荐了航班”会得分。

⚖️ AI当评委靠不靠谱?

论文专门做了一组实验来验证”LLM-as-a-Judge”在AgentIF-OneDay上的一致性。他们构建了包含28个任务、171个评分点的评估集,让人类评委先打分,然后比较不同AI评委和人类的一致率。
结果是:Gemini-3-Pro达到80.1%的一致率,Gemini-2.5-Pro是73.9%,GPT-5.1只有63.8%。这个差距相当大——最强的和最弱的之间差了16个百分点。论文分析,AI评委的主要问题还是那几个老毛病:评分时产生幻觉(凭空编造不存在的扣分理由)、对”简洁度””相对完整性””设计感”这类抽象概念的理解和人类不同。
80.1%的一致率意味着什么?如果把它放在日常场景里,大约每五次评分就有一次会跟人类评委意见相左。对于学术研究来说这个数字可能还行,但如果用来指导产品迭代或者做排名对比,就需要谨慎对待了。这也呼应了之前评测方法论纵览里的核心观察:让AI评判AI的能力,本身就是一个”元能力”问题——它需要的不仅是理解任务的能力,还需要理解”什么是好的标准”的能力。

🎯 这对我们意味着什么

读完这篇论文,有三个观点值得你在下次和别人聊AI评测时抛出来。
观点一:评测的”真实性缺口”比”难度缺口”更值得关注。AI在编程竞赛和奥数上的表现已经接近或超过人类顶尖水平,但在日常任务上的表现却只有60分出头。这说明当前AI能力的瓶颈不在”够不够聪明”,而在”能不能忠实地执行多步骤、多约束的真实任务”。对于做AI产品的团队来说,与其继续在基准测试上刷分,不如把精力放在提升AI在真实工作流中的稳定性上。
观点二:”隐含指令推断”是下一阶段的关键战场。AI理解明确指令已经做得不错了(所有Agent的指令遵循得分都在0.7以上),但从附件、上下文、模板中推断隐含要求的能力仍然很弱。这不仅是技术问题——它涉及到AI能否真正理解人类的”默契”和”惯例”。对于需要和AI深度协作的用户来说,这一点至关重要。
观点三:好的评测数据本身就是最有价值的资产。AgentIF-OneDay的104个任务、767个评分点,不仅仅是评测工具——论文明确提到,这些高质量的指令数据可以作为强化学习的训练数据。在”数据就是护城河”的AI时代,谁能构建出最贴近真实使用场景的评测数据集,谁就同时拥有了训练更好AI的原材料。这套”人工种子+AI扩展”的数据构建方法论,值得每一个做AI评测的团队认真研究。

最危险的差距,不是AI做不到人类能做的事,

而是AI在人类真正需要它的地方,表现得比你想的要差。

而你可能还不知道。

📄 论文信息
标题:AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
作者:Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou 等(xbench团队)
机构:xbench.org
发表:arXiv:2601.20613v2,2026年1月
数据集:104个任务,767个评分点,覆盖19种文件格式
开源:github.com/xbench-ai | huggingface.co/xbench-ai