Eval才是AI产品的真正产品力

最近看了一个访谈，Anthropic 的产品负责人 Kat Wu 说了一句话，让我停了很久。

她说：我们内部判断一个 AI 功能做得好不好，不是看用户反馈，不是看DAU，而是看 eval 通过率。

Eval，就是评测集。一组预先定义好的测试用例，用来衡量模型在特定任务上的表现。

听起来很技术对不对？但我越想越觉得，这可能是当下 AI 行业最被低估的一个认知：

大多数团队都在卷模型能力，但真正决定产品好不好的，不是模型强不强，是你有没有能力定义"什么叫好"。

能定义好，就能迭代。不能定义好，就只能靠感觉。靠感觉做产品，在传统软件时代还能混，在 AI 时代会死得很快。

为什么 AI 产品特别需要 Eval

先说一个很多做 AI 产品的人都遇到过、但很少被正式讨论的问题。

传统软件的质量判断是确定性的。一个按钮点下去，要么跳转了，要么没跳转。一个接口调用，要么返回正确结果，要么报错。对错分明，测试用例写起来很直觉。

但 AI 产品不一样。

你让模型写一段摘要，它给你三个版本，哪个算"好"？

你让模型做一个推荐，它推了五个结果，哪个算"对"？

你让模型回答一个客服问题，它说的话语气太硬还是太软，标准在哪？

AI 产品的输出是概率性的、模糊的、非确定性的。这意味着传统的 QA 方法论在这里几乎失效。你没有办法用"通过/不通过"这种二元判断来覆盖所有场景。

那怎么办？

Anthropic 的做法是：在动手写任何功能之前，先写 eval。

先定义"在这个场景下，什么样的输出算好"，把它变成一组可以自动跑的测试用例。然后所有的迭代、调优、上线决策，都围绕这组 eval 的通过率来做。

这听起来像常识，但现实是绝大多数 AI 团队都没在做这件事。

他们做的是什么呢？上线一个功能，自己试几下觉得"还行"，就推出去了。用户反馈不好，就改改 prompt。改完再试几下，觉得"好像好了"，再推一版。

整个过程没有基准线，没有回归测试，没有量化标准。每一次迭代都是盲人摸象。

Eval 的本质不是测试，是产品定义

很多人一听"评测集"，第一反应是这是工程师的事，是测试团队的事。

错了。

在 AI 产品里，写 eval 本质上是在做产品定义。

因为当你坐下来写一条测试用例的时候，你必须回答这些问题：

这个功能到底要解决什么问题？用户在什么场景下会用它？什么样的输出对用户有价值？什么样的输出是不可接受的？在多个"还行"的输出之间，我们按什么标准排优先级？

这些问题，每一个都是产品问题，不是技术问题。

Kat Wu 在访谈里说了一个很有意思的细节：Anthropic 内部，PM 写 eval 的时间比写 PRD 的时间还多。因为在 AI 产品里，PRD 那种"用户可以做 X，系统应该返回 Y"的描述方式太粗糙了。你必须用具体的 case 来定义什么是好。

举个例子。假设你在做一个 AI 客服产品，用户问"我的订单什么时候到"。

传统 PRD 会写：系统应返回预计送达时间。

但 eval 需要你定义得更细：如果物流信息正常，回复预计时间加当前状态，语气要确定。如果物流信息延迟，回复预计时间的同时主动致歉，并给出补偿选项。如果物流信息缺失，不能编造时间，应该告知用户正在查询并提供人工转接。

每一种情况都是一条测试用例。每一条测试用例背后都是一个产品判断。

所以 eval 不是在"测产品"，而是在"定义产品"。你的 eval 写得越精确，你的产品定义就越清晰。

这也是为什么 Kat Wu 说"eval 是 AI 产品的真正产品力"。不是因为它是质量保障手段，而是因为它反映了一个团队对"好"的定义精度。

没有 Eval 的团队在裸奔

如果你接受了"eval 是产品定义"这个前提，那回头看国内大量 AI 产品团队的工作方式，会发现一个触目惊心的事实：

大部分团队在裸奔。

什么叫裸奔？就是上线一个 AI 功能，没有量化的验收标准，没有自动化的回归测试，没有版本之间的对比基线。

改了一版 prompt，不知道比上一版好了还是差了。换了一个模型，不知道哪些场景变强了、哪些场景变弱了。用户投诉了一个 badcase，修了，但不知道修完之后有没有引入新的问题。

整个产品迭代像蒙眼开车。偶尔撞对了方向，大部分时间在兜圈子。

为什么会这样？

原因很朴素：写 eval 很累，而且不出活。

写代码能出功能，写 PRD 能对需求，做设计能出稿。但写 eval 呢？你花了两天写了一百条测试用例，从外面看起来什么都没产出。Leader 问你这两天干了什么，你说"我在定义什么叫好"，大概率会被追问"那功能什么时候上线"。

这就是组织激励的错位。大部分团队的考核体系还是围绕"功能上线速度"设计的，而不是围绕"产品质量的可度量程度"设计的。

结果就是：所有人都在赶着上线，没人在意上线的东西到底好不好，也没人有能力回答"好不好"这个问题。

Anthropic 能跑得比所有人快，不是因为他们人多、资源猛。恰恰相反，他们产品团队很小。但他们每一次迭代都是基于 eval 数据做决策，不是基于"老板觉得"或者"我试了一下感觉还行"。

有 eval 的团队，迭代是收敛的。每一步都在逼近更好。没有 eval 的团队，迭代是随机游走的。改了十版，不知道是进步还是原地踏步。

最后说两句

2026年，AI 产品领域最大的认知差距，不在模型能力上，不在融资规模上，甚至不在工程能力上。

而在一个极其基础、又极其容易被忽略的能力上：你能不能精确地定义"好"。

能定义好，就能迭代。能迭代，就能收敛。能收敛，产品就会越来越强。

不能定义好，就只能凭感觉。凭感觉就会飘。飘的产品，做十年也做不出壁垒。

所以，如果你今天在做 AI 产品，或者在管一个 AI 团队，我的建议非常简单：

在写第一行代码之前，先写你的 eval。

把"什么叫好"想清楚、写下来、变成可以跑的测试用例。然后让所有的迭代围绕这个标准展开。

这件事不性感，不炫酷，不会让你在发布会上拿到掌声。

但它是 AI 产品真正的护城河。因为模型会趋同，功能会被抄，界面会被复刻。唯独你对"好"的定义精度，别人抄不走。

能力可以被追赶，品味不能。

关联阅读：

"人机协同"不是鸡汤，是2026年唯一能跑通的模式

聊聊最近的实操感悟：当AI学会了你的工作标准

不要等组织重新定义你的岗位，先自己动手改造它

AI不是写完Skill就结束了，真正的活在后面

AI商业化走出了三条路，但它们卖的东西不同

AI在业务的落地，最缺的是翻译者

聊聊最近特别火的一个词——AI builder