AI评测公司Yupp不到一年关门了:旧的评测体系为什么在失效

2026年3月底，一家叫 Yupp AI 的公司发布了一份关闭公告。

没有太多人注意到这件事。AI圈每周都有新模型发布、新融资宣布，一个创业公司倒闭算不上新闻。但如果你知道这家公司背后站着 A16Z 的 Chris Dixon、Jeff Dean、Aravind Srinivas，刚拿了3300万美元的种子轮，只运营了不到一年就关门，你可能会想问一句：发生了什么？

要知道，3300 万美元的种子轮在创投圈是个相当反常的数字。普通创业公司种子轮多在几百万美元量级，能在第一轮就拿到这个金额，意味着顶级投资人对这家公司的赛道判断和团队信心都到了不同寻常的高度。然而就是这样一家含着金汤匙出生的公司，烧到一半选择主动关门。

Yupp 不是因为产品做坏了关门的。让它落幕的，是它所押注的那套评测范式，已经被技术演进抛到了身后。

Yupp 在做什么？

Yupp 的逻辑很直接：同一个问题，同时发给 800 多个 AI 模型，让用户投票选出哪个答得更好。用户每次评分可以赚积分，积分可以兑换成现金，每月上限 50 美元。

这个模式本质上是 LMSYS Chatbot Arena 的商业化版本，用众包的方式收集人类偏好数据，再把这些数据卖给 AI 公司用于训练和评估。逻辑上没有太大毛病，也确实吸引了 130 万注册用户，每月声称收集数百万条偏好数据。

那它为什么死了？

联合创始人 Pankaj Gupta 在关闭公告里说了一句很关键的话：

“随着模型能力的提升，用户的工作流正在迁移到那些将模型与工具、记忆和外部服务连接起来的系统。在聊天机器人这一层做众包评测，变得越来越不关键了。”

换句话说：用户不再直接和裸模型聊天了，他们在用 Agent。

旧范式建立在一个前提上

过去三年，AI 模型评测有一套默认范式：

一、给模型一个问题

二、拿到答案

三、让人类或者另一个模型打分

四、排名

这个框架的底层逻辑是：AI 的核心价值是“回答问题的质量”，所以评测问答质量，大体上就等于评测了 AI 的能力。

LMSYS Chatbot Arena、各类学术 benchmark、OpenAI 自家的 Evals，都建立在这个前提上。Yupp 也是。

这个范式在 GPT 3、GPT 4 时代是成立的。那时候，大多数人使用 AI 的方式确实是：打开对话框，输入问题，看看答案好不好。

但其实这套范式从一开始就有内生缺陷，只是当时没有暴露得这么明显。研究人员后来陆续发现，人类偏好评分有几个系统性偏差：

• 位置偏差：用户倾向于选 A 选项或 B 选项，而不是真的基于内容做判断
• 长度偏差：长答案显著比短答案更容易胜出，哪怕短答案更准确
• 风格盖过事实：读起来顺、措辞自信的答案，比事实正确的答案更容易被选中

也就是说，按 Arena 排名优化模型，会让模型变得“更油腻”，而不是“更聪明”。 即使在它最适用的单轮问答场景下，这套范式也并不完美。

而从 2024 年下半年开始，Agent 范式的兴起带来了一个更根本的问题：这套范式所丈量的东西，本身正在消失。

Agent 让评测问题难了一个数量级

想象你要评测一个客服 Agent：用户进来问退款，Agent 需要调用订单系统查询、判断是否符合退款政策、生成退款申请、调用支付系统处理、最后发确认邮件。

这个任务里有什么是“问答质量”能衡量的？几乎没有。

Agent 的工作本质是：在多个步骤里，做出一系列正确的决策，最终完成一个目标。这带来了以下这些让旧评测框架直接失效的挑战。

一、过程比结果更难捕捉

单轮问答有输入、有输出，评测框架很清晰。但一个 Agent 任务可能经历 50 次工具调用，失败可能发生在第 7 步，也可能发生在第 43 步。你怎么定义“失败”？怎么定位原因？

二、相同模型，不同框架，分数也会漂移

这是今年 Agent benchmark 里最让人头疼的发现之一。同一个模型，放进不同的 Agent 编排框架里，结果可能差出好几个百分点。公开行业分析里就曾提到，同一个 Claude Opus 4 在不同Agent框架中跑出了64.9%和57.6%两个结果。无论这组数字对应的是哪一个具体榜单，它真正揭示的问题都一样：当模型、工具、提示词、执行器、错误恢复机制被绑在一起评测时，分数就不再只是“模型能力”的反映。

你评测的究竟是模型本身，还是框架的编排效果？这个问题不解决，Agent benchmark 之间的分数就很难直接比较。你看到的排名差异，很可能不只是模型水平差异，也可能是框架工程能力的差异。

三、benchmark 被“针对性优化”的速度越来越快

SWE bench 评测的是解决 GitHub 真实 issue 的能力，曾经是代码 Agent 最重要的公开参照之一。但 OpenAI 在 2026 年 2 月明确表示，SWE bench Verified 已经不再适合衡量前沿模型的自主编码能力，并停止报告这个分数。原因不只是数据污染，还包括测试会拒绝功能正确的解法、题目描述不充分，以及公开仓库来源导致模型可能在训练中接触过题目或原始修复方案。

这件事说明，一个 benchmark 从发布、成为共识，到被前沿模型和训练数据反向侵蚀，周期正在变得越来越短。它不一定是被恶意“作弊”刷穿的，但只要它进入主流训练和优化视野，就会逐渐失去作为外部标尺的独立性。

四、人类众包评分在 Agent 任务上几乎没有意义

让普通用户评判“这个 Agent 完成退款任务的方式对不对”，需要用户理解 API 调用逻辑、了解业务规则、能判断边界条件处理是否正确。这已经不是普通用户能做的事了。

五、多模态 Agent：连“正确答案长什么样”都说不清

文字任务至少还有个参考输出可以对比，但当 Agent 开始操作电脑界面，评测就又难了一层。同一个任务“帮我把这份表格发给张总”，Agent 可以打开邮件客户端、也可以用快捷键、也可以通过文件管理器拖拽附件，路径完全不同，结果都对。你没办法用“输出是否匹配”来判断成功失败。

目前专门评测 GUI Agent 的 OSWorld benchmark，要求 Agent 在真实操作系统里完成任务。这个方向本身就比文字问答复杂得多，因为 Agent 不只是生成答案，而是在浏览器、文件系统、办公软件、邮件客户端等环境里连续操作。OSWorld 早期结果展示了多模态 Agent 与人类之间的明显差距，后续 OSWorld Verified 又通过修复样例、改进环境和更新榜单不断刷新成绩。

这反而说明了 GUI Agent 评测的另一个难点：benchmark 本身也在快速变化。任务环境、工具接口、最大步数、验证方式和框架实现稍有变化，结果就可能明显不同。到了这个阶段，评测不再只是“给一个题，看一个答案”，而是要定义一个可执行、可复现、可验证的世界。

六、完成率之外，还有一堆维度被忽略了

现在的 Agent benchmark 大多只看一件事：任务有没有完成。但真实场景里，“完成”远远不够。

• 成本：完成同样的任务，不同 Agent 消耗的 token 数能差几十倍。只看完成率，会让一个“用五倍成本换来百分之五准确率提升”的模型在榜单上显得更优秀
• 稳定性：同一个 Agent 跑 10 次同样任务，可能成功 6 次失败 4 次。单次跑分意义有限，但目前大部分榜单只报告单次结果
• 延迟：客服场景下，30 秒响应和 3 分钟响应是两个完全不同的产品。但在 benchmark 里它们没有差别

以客服 Agent 为例，企业真正关心的指标是首次解决率、转人工率、客户满意度、单次会话成本，这些指标几乎不会出现在任何公开 benchmark 里。它们和“任务完成”高度相关，但不等价。一个 Agent 可能“完成了任务”，但用户在过程中已经流失，或者成本高到不可接受。

这种多元、场景化的评测需求，恰恰是 Yupp 那套以“人类偏好打分”为核心的模式做不到的。当企业要的是和业务挂钩的具体指标，单一的偏好排序既不能覆盖维度，也无法回答关键问题。

把这六个挑战和前面提到的三大偏差放在一起看，会发现一件事：旧的评测范式不只是“某个环节出了问题”。从测量工具（偏差）到测量对象（任务形态），它正在全方位失效。

行业正在往哪里走？

Yupp 关闭公告里还提到了另一个关键信号：AI 实验室在把评测能力收回自己手里。

这句话背后的趋势比表面看起来更深刻。过去，评测主要是模型训练完成后的验收环节，跑几个 benchmark 看看效果。但现在，评测正在变成训练过程中的核心组件：

• 评测信号直接作为强化学习的 reward：过去模型先训完再去跑 benchmark，现在模型公司构建可执行的评测环境，让模型在训练过程中就直接拿评测分数当作优化目标。评测和训练的边界正在消失
• 评测数据走向专业化：高质量、领域特定的评测集本身就是壁垒。Scale AI 这类公司提供的不是泛泛的大众投票，而是由覆盖编程、数学、语言学等领域的专业人员对模型输出进行排序、验证和交互式评估。相比普通众包，这类反馈更贵、更慢，但更接近前沿模型后训练真正需要的高精度信号
• “评测工程师”成为新岗位：Anthropic、OpenAI 都在大规模招募评测方向的研究员和工程师，地位不断上升

前面提到 OpenAI 停止报告 SWE bench Verified 分数，本质上就是这个趋势的具体表现：头部实验室在主动疏远那些曾经的“业界共识 benchmark”，转向自建的、外部看不见的内部评测体系。

换句话说，评测能力正在从“第三方工具”变成“AI 公司的核心资产”。Yupp 想做的“中立第三方评测平台”这个商业定位，本身就是一个被时代抛弃的位置。

学术界也在快速迭代新一代 Agent benchmark：

• SWE bench、SWE bench Verified、SWE bench Pro：用真实 GitHub issue 评测代码能力，曾经是代码 Agent 的核心公开参照；但随着前沿模型接近高分区间，测试缺陷、污染风险和新榜单迁移本身也成了评测问题的一部分
• GAIA：要求模型链式使用网页浏览、文件解析、多步推理，2023年 GPT 4 只有百分之十五，现在顶级 Agent 接近百分之七十五
• τ² bench（Sierra Research）：专门模拟客服场景，用双角色控制，AI Agent 和模拟用户同时操作同一个环境，测的是协作和沟通能力，这是以往 benchmark 普遍忽略的维度

但这些学术 benchmark 和真实生产场景之间，依然存在一个令人不安的差距：企业实际部署 Agent 后，真实世界的表现普遍显著低于实验室 benchmark 给出的分数，差距常常以两位数百分点计。这些 benchmark自身也仍在快速迭代，评测问题远未解决。

Yupp 的客户为什么走了？

到这里，Yupp 失败的两条线索已经清晰：技术上，旧的偏好评测在 Agent 时代失去了意义；行业上，评测能力正在被各家实验室内化。但要解释为什么这家公司会以这么戏剧性的方式倒下，还得加上第三条线索，也就是商业层面：它的客户为什么不再为它的数据买单。

理解 Yupp 的失败，光看用户行为变化还不够，还要看客户行为，也就是谁原本愿意为 Yupp 的数据买单。

Yupp 的客户主要是想优化模型的 AI 公司。在 GPT 4 时代，这些公司确实需要“普通用户在真实场景下的偏好数据”，因为他们要让模型在大众使用中表现更好，“普通用户喜欢什么样的回答”是有商业价值的。

但进入 2025 年，AI 公司的需求结构变了：

• 模型已经在通用对话场景下足够好，真正的竞争点转移到了垂直能力：代码、数学、Agent 任务这些场景
• 这些垂直能力需要的不是“普通用户觉得哪个回答好”，而是“这段代码能否通过单元测试”、“这个 Agent 能否完成 50 步任务”
• 评判这些问题，需要的是懂代码、数学、业务规则或工具调用逻辑的领域专家，不是路人用户

Yupp 那种“百万用户众包打分”的模式，在新需求面前几乎没有竞争力。当客户要的是高精度、结构化、领域特定的反馈，再大的用户基数也卖不出价格。

更深一层来看，AI 公司的评测需求正在分化成两条不同的路径：一部分内化成模型实验室的内部能力，一部分外包给极少数高精度的专业服务商。Yupp 的位置，恰好不属于其中任何一种。

用户行为变化只是表象，客户需求结构的变化才是真正的杀手。

Yupp 的真正教训

Yupp 倒闭不是因为团队不行，也不是因为资金烧完了。他们选择在账上还有钱的时候主动关闭，把剩余资金还给投资人。

但这件事的意义，不止于一家评测公司的成败。它揭示的是：整个行业的评测体系正在分化成两条路径。

• 模型层评测：把评测内化到训练流程里，用 RL reward、专家标注、内部 benchmark 持续打磨基座模型。属于模型实验室的核心能力
• 应用层评测：在自己的业务场景里建立专属体系，关心的是首次解决率、转人工率、单次会话成本这些和业务直接挂钩的指标。属于每一个把 Agent 用到生产里的企业

这两件事虽然有交集，但已经不是同一件事。Yupp 的位置，做“中立第三方”的通用模型评测，恰好是这两条路径都不再需要的中间地带。

对每一个把 Agent 用到生产中的企业来说，真正的难题已经不是“哪个模型在榜单上分数最高”，而是“这个 Agent 在我的具体业务场景里能不能跑通”。前者是 benchmark 能回答的，后者只能自己去回答。

而 Yupp 的故事提醒整个行业一件事：在一个技术范式每隔半年就会位移一次的领域，评测方法论本身也有保质期。

旧的标尺量不了新的东西。