AI 产品做完,怎么知道它好不好用?

以太方舟 ·Talk 第04期

嘉宾：Stella Liu, Amy Chen 主持：Sandra, Remi

这期聊完，一直在想Stella 说的一句话。

她说，很多团队对自己 AI 产品的信任，建立在一个假设上，就是“感觉还不错”。内部几个人试用一下，感觉还不错，就发布了。然后用户不回来了。

不是产品没需求，也不是团队不努力。是大家根本不知道，自己的 AI 在真实场景里表现如何。

Stella Liu 和 Amy Chen 在 AI 这行加起来做了快三十年。她们现在做的事，就是帮团队搞清楚这个问题。

AI 评测，是一个大家都觉得重要、但没人知道怎么开始的事

Stella 和 Amy 观察到，目前对AI评测感兴趣的人群有三种，

第一种，是头部 AI 公司，他们已经有专门的评测团队，来上课是想把体系做得更完善。第二种，是正在搭建评测体系的团队，他们做 AI 产品做了两三年，开始意识到「如果没有评测，产品是不可行的，甚至是不安全的」。第三种，是公司里第一个觉得这件事重要的人，他来上课，是因为他知道这件事迟早会变成必要的一环，但现在还没人在做。

Amy 说，这个领域太新了，你去搜，也不太确定要怎么开始，不论从分工还是资源投入上都不明确。

很多公司把 AI 评测看成一个绊脚石，觉得花时间做这件事会让开发速度变慢。但在头部公司，已经有非常多的人在做这件事了。

这个分裂，就是现在这个行业的现实。

产品经理一个人做不了这件事

Sandra 问了一个很直接的问题，产品负责人对 AI 评测最常见的误解是什么？

Amy 说，最常见的误解，是觉得产品经理可以一个人决定 AI 评测所有的事情。市面上很多课也是这么讲的。但 AI 评测涉及安全性、合规、产品需求、用户需求，它需要多个团队一起沟通才能达成。一个人做，长期来讲是撑不住的。

Stella 补充了另一个角度。她说，做 AI 评测其实是在倒逼产品设计。

很多团队的开发方式是先做原型，再在原型基础上迭代，产品需求在最开始没有清晰定义，就这样做下去了。但如果比较早期就开始做 AI 评测，你就会不断地问自己，这个产品到底是用来做什么的？在不同场景下，期待的表现应该是什么样的？

AI 评测在这个过程中，其实是逐步完善了产品的设计。

越早投入越好。不是说一上来就要做一套完美的系统，而是越早建立反馈机制，你就越早知道自己在往哪个方向走。

AI 把效率放大了，也把问题放大了

聊到跨职能团队的协作问题，Stella 说了一个让我印象很深的观察。

大家都说 AI 是放大器，能把效率乘以十倍。但它放大的是什么？

如果你的团队本来就有摩擦，有沟通问题，有协作障碍，AI 把开发速度乘以十倍之后，你的摩擦也乘以十倍了。

Amy 举了一个很具体的例子。以前你今天写好一个新功能，隔天开个会，跟大家解释你做了什么，大家分工接下来怎么做。现在你今天可以写十个功能，隔天的会要怎么开？你需要沟通的东西变了十倍，但你还会好好沟通吗？

开发太快了，反而会花更少的时间做有效的沟通。

这不是 AI 的问题，是人的问题。速度快了，但沟通的质量没有跟上。

最大的错误，是根本没想过 AI 不能做什么

很多 AI 产品上线之前，团队会设定一些「护栏」——就是 AI 绝对不能做的事，把这些规则写进系统里，每次 AI 输出之前先过一遍检查，确认它能不能出去到用户端。

Amy 说，设定这些护栏有两个常见的坑。第一个是成本问题，如果你用很贵的模型来做这个检查，每次用户问一个问题你都跑一次，长期下来会花很多钱，响应时间也会变长，成本、时间、效果需要做取舍。第二个是定义问题，「这个产品绝对不能不礼貌」听起来很合理，但「不礼貌」本身就很难定义，实践起来比想象中难得多。

但 Stella 说，她们看到的最大的错误，不是护栏定义得不够好。

最大的错误，是根本没有去定义它。就裸奔。

业界有一些很好用的 chatbot，但它没有定义边界，没有定义什么不可以做。这在现阶段，是一个比做错更常见的错误。

让 AI 来评判 AI，这件事有多靠谱

现在很多团队用“让大模型去评判另一个 AI 产品的输出好不好”这个方法来做评测，几乎成了行业默认的做法。

Stella 说，这件事成立的前提，是你用来做评测的大模型，会完全按照你的指令去做。但这个假设本身就有问题。

你去看各个大模型的排行榜，“按指令做事的能力”是一个非常重要的指标，每个榜单都有这个排名。之所以有这个排名，就是因为没有任何一个大模型能做到 100% 按你说的做。

如果你相信可以完全把 AI 评测这件事交给 AI 去做，那 AI 就可以自己进化了，不需要你。我们之所以还没看到完全自我修正的 AI 产品，就是因为 AI 还没有到达可以自我监督的能力。

那怎么校准？Amy 说，最核心的一步，是人去检查结果。你不能一开始就跑非常多的 AI 评判，量太多的话，人没有办法做有质量的检查。要一个一个看，这个有问题没有？问题在哪里？先建立人的基准，再用这个基准去校正 AI 评判的结果。

这件事没有办法完全自动化。人不能摸鱼。

AI 不是「跑几个测试通了就算好」的事

很多工程师做 AI 评测，还是用写unit test的思路，跑几个场景，通了就算过。怎么转变这个思维方式？

Amy 说，其实不需要学过统计才能做这件事。你的测试场景，有没有覆盖大部分重要的情况？这跟写单元测试其实有点类似，理想情况下你想把所有需要测试的东西都写进去，但这不可行，你不可能有精力把所有可能发生的事情全部写完，你也不会知道所有可能发生的事情。AI 评测也是一样的，你尽量去想到所有应该覆盖的情境，发现新的情况就把它加进去，让它变成以后也会测试的情况。

Stella 补充了一个更底层的观察。她说，做 AI 产品的时候，它不是一个简单的通过或失败，它是「90% 的情况下是通过的」，那这个到底算通过还是失败？

这是一个思维方式的不同。不确定性多少是我们可以接受的，这个其实是一个产品问题，不只是技术问题。

Amy 说，现在因为每个人都用 AI，大家对这个不确定性越来越有认识了。以前去沟通这个不确定性还蛮难的，但现在大家都知道 AI 就是有时候说这样，有时候说那样，不会每次都一样。这个认知，其实是在慢慢内化的。

最小可行评测方案，从哪里开始

对于资源有限的小团队，Remi 问，有没有一个最小可行的评测方案？第一步最应该做什么？

Stella 说，你不需要一上来就做一套完美的系统。比较低成本的第一件事，是从你的产品需求文档出发，根据产品的需求和技术设计，列出不同的使用场景，然后根据这些场景生成测试用例。

这个过程现在可以用 AI 辅助，会大大缩减时间。但不能完全自动化，你还是需要人去看一遍，这些测试用例合不合理？

要找到平衡。完全手动做 AI 评测，在现在这个时代不合理。但完全自动化，也会落入另一个陷阱。人应该去抓住 AI 评测当中比较重要的节点。

越早开始越好，哪怕是很简单的版本。

信息源没有秘密，真正的秘密是去问用户

Stella 说，这个领域没有什么大家偷偷在用其他人不知道的信息源。

Amy 说了一个更根本的东西。她说，真正的秘密，是你必须要实际去跟你的用户有接触，面对面或者真实的接触。

很常看到的例子，是大家一直在推敲用户想要什么样的功能，喜不喜欢你做的 AI 产品，但你其实最需要做的，就是去到他面前问他你喜不喜欢就好了。因为大家在电脑前面工作是最快的，也相信所有的宝藏都在 Internet 里，所以常常忽略了这个部分。

有时候人家只是不好意思跟你说我不想用这个东西，你这东西很难用。他其实都有答案，可你从来没有去他面前问他，所以你就不知道。

Stella 接着说了一句让我觉得很有共鸣的话。她说，不要过于迷信技术。说到底，各种技术都是为了解决问题才会有人愿意为它买账。但现在因为 AI 的热潮太厉害了，大家可能都陷在了 AI 叙事之中，所有的注意力都在科技本身，而不是在科技可以解决什么样的问题上。

答案有时候在很近的地方，是你没有去问他。

直播回放：

已关注

关注

重播分享赞

视频详情

谢谢你看到这里。

欢迎联系小助手connect嘉宾，或者分享你的故事。