以太方舟 ·Talk 第04期
嘉宾:Stella Liu, Amy Chen 主持:Sandra, Remi
这期聊完,一直在想Stella 说的一句话。
她说,很多团队对自己 AI 产品的信任,建立在一个假设上,就是“感觉还不错”。内部几个人试用一下,感觉还不错,就发布了。然后用户不回来了。
不是产品没需求,也不是团队不努力。是大家根本不知道,自己的 AI 在真实场景里表现如何。
Stella Liu 和 Amy Chen 在 AI 这行加起来做了快三十年。她们现在做的事,就是帮团队搞清楚这个问题。
AI 评测,是一个大家都觉得重要、但没人知道怎么开始的事
Stella 和 Amy 观察到,目前对AI评测感兴趣的人群有三种,
第一种,是头部 AI 公司,他们已经有专门的评测团队,来上课是想把体系做得更完善。第二种,是正在搭建评测体系的团队,他们做 AI 产品做了两三年,开始意识到「如果没有评测,产品是不可行的,甚至是不安全的」。第三种,是公司里第一个觉得这件事重要的人,他来上课,是因为他知道这件事迟早会变成必要的一环,但现在还没人在做。
Amy 说,这个领域太新了,你去搜,也不太确定要怎么开始,不论从分工还是资源投入上都不明确。
很多公司把 AI 评测看成一个绊脚石,觉得花时间做这件事会让开发速度变慢。但在头部公司,已经有非常多的人在做这件事了。
这个分裂,就是现在这个行业的现实。
产品经理一个人做不了这件事
Sandra 问了一个很直接的问题,产品负责人对 AI 评测最常见的误解是什么?
Amy 说,最常见的误解,是觉得产品经理可以一个人决定 AI 评测所有的事情。市面上很多课也是这么讲的。但 AI 评测涉及安全性、合规、产品需求、用户需求,它需要多个团队一起沟通才能达成。一个人做,长期来讲是撑不住的。
Stella 补充了另一个角度。她说,做 AI 评测其实是在倒逼产品设计。
很多团队的开发方式是先做原型,再在原型基础上迭代,产品需求在最开始没有清晰定义,就这样做下去了。但如果比较早期就开始做 AI 评测,你就会不断地问自己,这个产品到底是用来做什么的?在不同场景下,期待的表现应该是什么样的?
AI 评测在这个过程中,其实是逐步完善了产品的设计。
越早投入越好。不是说一上来就要做一套完美的系统,而是越早建立反馈机制,你就越早知道自己在往哪个方向走。
AI 把效率放大了,也把问题放大了
聊到跨职能团队的协作问题,Stella 说了一个让我印象很深的观察。
大家都说 AI 是放大器,能把效率乘以十倍。但它放大的是什么?
如果你的团队本来就有摩擦,有沟通问题,有协作障碍,AI 把开发速度乘以十倍之后,你的摩擦也乘以十倍了。
Amy 举了一个很具体的例子。以前你今天写好一个新功能,隔天开个会,跟大家解释你做了什么,大家分工接下来怎么做。现在你今天可以写十个功能,隔天的会要怎么开?你需要沟通的东西变了十倍,但你还会好好沟通吗?
开发太快了,反而会花更少的时间做有效的沟通。
这不是 AI 的问题,是人的问题。速度快了,但沟通的质量没有跟上。
最大的错误,是根本没想过 AI 不能做什么
很多 AI 产品上线之前,团队会设定一些「护栏」——就是 AI 绝对不能做的事,把这些规则写进系统里,每次 AI 输出之前先过一遍检查,确认它能不能出去到用户端。
Amy 说,设定这些护栏有两个常见的坑。第一个是成本问题,如果你用很贵的模型来做这个检查,每次用户问一个问题你都跑一次,长期下来会花很多钱,响应时间也会变长,成本、时间、效果需要做取舍。第二个是定义问题,「这个产品绝对不能不礼貌」听起来很合理,但「不礼貌」本身就很难定义,实践起来比想象中难得多。
但 Stella 说,她们看到的最大的错误,不是护栏定义得不够好。
最大的错误,是根本没有去定义它。就裸奔。
业界有一些很好用的 chatbot,但它没有定义边界,没有定义什么不可以做。这在现阶段,是一个比做错更常见的错误。
让 AI 来评判 AI,这件事有多靠谱
现在很多团队用“让大模型去评判另一个 AI 产品的输出好不好”这个方法来做评测,几乎成了行业默认的做法。
Stella 说,这件事成立的前提,是你用来做评测的大模型,会完全按照你的指令去做。但这个假设本身就有问题。
你去看各个大模型的排行榜,“按指令做事的能力”是一个非常重要的指标,每个榜单都有这个排名。之所以有这个排名,就是因为没有任何一个大模型能做到 100% 按你说的做。
如果你相信可以完全把 AI 评测这件事交给 AI 去做,那 AI 就可以自己进化了,不需要你。我们之所以还没看到完全自我修正的 AI 产品,就是因为 AI 还没有到达可以自我监督的能力。
那怎么校准?Amy 说,最核心的一步,是人去检查结果。你不能一开始就跑非常多的 AI 评判,量太多的话,人没有办法做有质量的检查。要一个一个看,这个有问题没有?问题在哪里?先建立人的基准,再用这个基准去校正 AI 评判的结果。
这件事没有办法完全自动化。人不能摸鱼。
AI 不是「跑几个测试通了就算好」的事
很多工程师做 AI 评测,还是用写unit test的思路,跑几个场景,通了就算过。怎么转变这个思维方式?
Amy 说,其实不需要学过统计才能做这件事。你的测试场景,有没有覆盖大部分重要的情况?这跟写单元测试其实有点类似,理想情况下你想把所有需要测试的东西都写进去,但这不可行,你不可能有精力把所有可能发生的事情全部写完,你也不会知道所有可能发生的事情。AI 评测也是一样的,你尽量去想到所有应该覆盖的情境,发现新的情况就把它加进去,让它变成以后也会测试的情况。
Stella 补充了一个更底层的观察。她说,做 AI 产品的时候,它不是一个简单的通过或失败,它是「90% 的情况下是通过的」,那这个到底算通过还是失败?
这是一个思维方式的不同。不确定性多少是我们可以接受的,这个其实是一个产品问题,不只是技术问题。
Amy 说,现在因为每个人都用 AI,大家对这个不确定性越来越有认识了。以前去沟通这个不确定性还蛮难的,但现在大家都知道 AI 就是有时候说这样,有时候说那样,不会每次都一样。这个认知,其实是在慢慢内化的。
最小可行评测方案,从哪里开始
对于资源有限的小团队,Remi 问,有没有一个最小可行的评测方案?第一步最应该做什么?
Stella 说,你不需要一上来就做一套完美的系统。比较低成本的第一件事,是从你的产品需求文档出发,根据产品的需求和技术设计,列出不同的使用场景,然后根据这些场景生成测试用例。
这个过程现在可以用 AI 辅助,会大大缩减时间。但不能完全自动化,你还是需要人去看一遍,这些测试用例合不合理?
要找到平衡。完全手动做 AI 评测,在现在这个时代不合理。但完全自动化,也会落入另一个陷阱。人应该去抓住 AI 评测当中比较重要的节点。
越早开始越好,哪怕是很简单的版本。
信息源没有秘密,真正的秘密是去问用户
Stella 说,这个领域没有什么大家偷偷在用其他人不知道的信息源。
Amy 说了一个更根本的东西。她说,真正的秘密,是你必须要实际去跟你的用户有接触,面对面或者真实的接触。
很常看到的例子,是大家一直在推敲用户想要什么样的功能,喜不喜欢你做的 AI 产品,但你其实最需要做的,就是去到他面前问他你喜不喜欢就好了。因为大家在电脑前面工作是最快的,也相信所有的宝藏都在 Internet 里,所以常常忽略了这个部分。
有时候人家只是不好意思跟你说我不想用这个东西,你这东西很难用。他其实都有答案,可你从来没有去他面前问他,所以你就不知道。
Stella 接着说了一句让我觉得很有共鸣的话。她说,不要过于迷信技术。说到底,各种技术都是为了解决问题才会有人愿意为它买账。但现在因为 AI 的热潮太厉害了,大家可能都陷在了 AI 叙事之中,所有的注意力都在科技本身,而不是在科技可以解决什么样的问题上。
答案有时候在很近的地方,是你没有去问他。
直播回放:
谢谢你看到这里。
欢迎联系小助手connect嘉宾,或者分享你的故事。

夜雨聆风