我有一次在一个 AI 写作工具里问「2023 年中国新能源汽车出口量是多少」,它给了一个看起来很精确的数字:117 万辆。我出于职业习惯多问了一句「这个数据来源是什么」,系统崩了——没有来源、没有引用、没有任何解释。我再点了一下重新生成,给出的数字变成了 120 万辆。两次回答不一致,两次都没有出处。这种感觉很差,就像你在问路,对方很自信地给你指了一个方向,然后说「不好意思我说错了」,又给你指了另一个方向。你还会信他吗?
这不是个例。AI 产品的错误几乎是确定性的。任何基于大语言模型的产品,在开放域问答上的准确率都不可能是 100%。OpenAI 自己的研究也承认了这一点。但真正让我感兴趣的不是 AI 为什么会犯错,而是产品应该怎么处理这些错误。当用户发现 AI 的回答有问题时,产品体验的接下来的 30 秒,决定了这个用户是留下来继续尝试还是直接卸载。
我研究了十几个主流 AI 产品的错误处理设计,发现它们之间的差距巨大。有些产品的错误处理让人感觉「虽然它错了,但我愿意再给它一次机会」,有些产品则是错了一次就让用户彻底失去信心。两者的区别不在于 AI 的准确率,而在于产品设计上的一整套容错机制。

用户面对 AI 错误的三个心理阶段
在讨论具体的设计策略之前,先理解一个用户心理模型。当一个用户发现 AI 的回答有问题时,他的心理会经历三个阶段。
第一个阶段是「疑惑」。用户看到回答,觉得不太对,但不确定是不是自己记错了或者理解错了。这个阶段持续的时间很短,大概几秒钟。在这个窗口期,如果产品不提供任何帮助用户验证回答的机制,用户会自然地进入下一个阶段。
第二个阶段是「失望」。用户确认 AI 的回答是错的。这时候用户的情绪开始转向负面,他开始重新评估这个产品的可靠性。在这个阶段,如果产品不主动认错、不提供纠错入口,用户的失望会加速升级。
第三个阶段是「放弃」。连续两次或以上的错误体验之后,用户的信任基本崩塌。此时就算产品修复了 bug、提升了准确率,也很难把用户拉回来——信任一旦丢失,重建的成本是获得信任的十倍以上。
理解这个三阶段模型之后,设计策略就很清楚了:在「疑惑」阶段帮用户快速验证——让用户能自己判断回答靠不靠谱。在「失望」阶段给用户纠正的路径——让用户有办法修复错误。在「放弃」之前把用户的负面体验转化成正向参与——让错误不是终点,而是进一步互动的起点。
设计策略一:主动认错比死撑好一万倍
AI 产品最糟糕的做法就是在自己不确定的时候假装很确定。你正在回答用户的问题,回答本身可能是对的也可能是错的,但你用一种不容置疑的语气说出来——「根据权威数据显示」「毫无疑问」「事实是」。用户一旦发现这些「毫无疑问」的东西其实是错的,信任感会一次性崩塌。
Perplexity 是这方面做得最好的产品之一。它的每个回答都会标注信息来源——不是简单地列在底部,而是内嵌在回答的段落旁边。你可以一边读 AI 的回答,一边看到「AI 这个判断是基于哪个网页的第几段」。如果 AI 引用了错误的信息源,用户很容易发现。更重要的是,这种做法本身就是一种谦逊的姿态——AI 在说「这是我根据自己的信息源得出的结论,但不一定是最终真理,你可以自己看看我的依据靠不靠谱。」
还有一个设计细节我很喜欢。当 AI 的判断把握不高的时候,Perplexity 会在回答开头或者结尾注明「以上信息可能存在不准确之处,建议核实」。这种做法看起来是自毁权威,实际上是在保护用户的长期信任。用户看到 AI 自己承认「我不确定」,即使后来发现确实有误,也不会完全归咎于 AI 的能力——因为 AI 已经提前预警过了。这比「装专家然后被打脸」的体验好太多了。
与之形成对比的是某些 AI 搜索产品,回答语气极其肯定,不提供任何引用来源,甚至不提供「重新生成」的按钮。用户看到错误答案之后唯一的出路就是关掉页面。这种产品设计等于是在跟用户说:「信我,别问我为什么,我也不会给你第二次机会。」用户的反应也很直接:「好,那我走了。」

设计策略二:把纠错设计成一键就能完成的事
第二步是给用户提供纠正 AI 的路径。而且这个路径一定要短——越短越好,最好不要超过两次点击。
现在大多数 AI 产品对错误回答的处理方式要么是「什么都不让你做」(这是最差的),要么只在回答下面放了一个不显眼的点赞/踩的小图标(这个也不好——用户很难从一个简单的踩中感受到自己的反馈被认真对待了)。
更好的做法是什么?Chai Research 的一款 AI 聊天产品做了一个设计:在每个 AI 回复的右下角,有一个折叠菜单,点开之后有四个选项——「回答不准确」「引用有误」「表达不清楚」「其他问题」。用户选择一个之后,会弹出一个文本框让用户补充说明。整个过程从发现错误到提交反馈不超过 15 秒。而且提交反馈之后,AI 会在当前的同一轮对话里重新生成回答,并用一个清晰的设计告诉用户「感谢你的反馈,我在这个回答中参考了你的纠正」。
这个设计有三个高明之处:第一,它把用户从被动的错误承受者变成了主动的参与者——用户不是在忍受错误,而是在帮 AI 变得更好。第二,它展示了反馈的效果——用户看到 AI 立刻根据反馈生成了新回答,知道自己输入的信息被采用了,获得了参与感。第三,整个流程极快,不会打断用户的正常使用节奏。如果一个反馈流程需要超过 30 秒,80% 以上的用户会选择跳过。
还有一个进阶设计我正在自己产品上测试:在用户提交纠正之后,3 到 7 天后给用户推送一条消息,告诉用户「根据你上次反馈的错误,我们的模型已经进行了优化」。这封小型邮件或者站内通知的价值不在于告知,而在于展示——展示用户的反馈不是掉进了黑洞,而是真实地影响了产品。这种被重视的感觉,会让用户从一个可能出现沉默流失的用户,变成一个愿意持续参与的超极用户。
设计策略三:在用户提问之前就设好预期
前面两个策略都是「事后补救」,但如果能在用户提问之前就管理好预期,能大幅减少错误发生的负面影响。
最简单也最有效的一个设计是「能力边界声明」。在用户开始打字之前,在输入框上方或者侧边栏标注一行小字,告诉用户这个 AI 擅长什么、不擅长什么。比如「我是一个专注于代码生成和调试的 AI 助手,不适合回答医疗和法律问题。」很多人觉得这种声明会让用户觉得「这个 AI 不够厉害」,但实际上它的效果是相反的——当用户知道你的 AI 不擅长什么但依然选择使用,他们对偶然出现的错误容忍度会高得多。因为错误不再是 AI 的能力缺陷,而是用户「自愿进入了 AI 不擅长的领域」。
还有一个设计是「置信度分化建议」。如果 AI 对用户的提问给出一个回答,但内部判断置信度低于某个阈值,可以在答案前方自动分叉给出两个方向:「这是我最有把握的回答……(但考虑到另一种可能性,也有可能是这样的……)」。让用户看到 AI 是在认真权衡而非粗暴判断。这种看起来效率不那么高(增加了阅读和判断成本),但信任构建效果非常明显。而且随着模型能力提升,你可以逐渐减少这种分化建议出现的频率——当 AI 大多数时候都很有把握的时候,偶尔出现的分化建议反而会成为用户信任的信号,而不是怀疑的信号。
OpenAI 的 ChatGPT 有一个很有意思的细节:如果用户问了一个模型训练数据截止之后才发生的事情,ChatGPT 会在回答问题之前先标注一句:「我的知识截止到某年某月。」这句话的核心功能不是告知,而是免责——它在告诉用户「如果我的回答不准确,可能是因为你没有给我最新的信息」。这个设计把错误的来源从 AI 身上转移到了信息不对称上,用户不会因此怪 AI,而是会想「哦,我需要给它更多背景。」

案例对比:做得好的 vs 做得差的
我找时间做了个对比,把市面上十几款主流 AI 产品的错误处理设计逐一打开看了一遍。
做得好的产品有一些共同特征:都提供报告错误的入口,而且入口显眼、操作简单。都在回答里标注了信息来源或者参考依据,让用户能自助验证。都在回答可能存在不确定时主动提示用户,而不是死撑权威。
做得差的产品也有明显的共同点:要么完全没有纠错入口,要么入口藏在很深的菜单里,要么点击纠错之后没有任何反馈告知用户处理结果。回答的语气始终斩钉截铁,哪怕是最应该谨慎的话题也是如此。
其实这些差距跟技术能力没有太大关系。不需要升级 AI 模型、不需要增加服务器的投入。就是一个设计意识的问题——产品经理和设计师有没有把「AI 一定会犯错」作为一个产品设计的默认前提,而不是一个偶尔需要补一下的 bug。

错误不是 bug,是产品的一部分
我越做 AI 产品越觉得一个道理:对于 AI 产品来说,错误不是需要彻底消灭的 bug,而是产品生态的天然组成部分。你做的不应该是「让 AI 永远不犯错」(这不可能),而是「设计好犯错之后的每一次应对」,让每次错误都成为加深用户信任的机会。
这里面有一个极其微妙的设计哲学:当你向用户展示你有多诚实、多自省、多愿意弥补,用户对你的信任反而比看到你永远准确的回答时更强。因为人们根本不信任一个永远正确的机器——他们知道那是假的。他们更愿意信赖一个会犯错但会坦诚面对错误的助手。这一点,可能是做 AI 产品最反直觉也最重要的洞察。
如果这篇文章对你有帮助,请随手点赞、在看、转发三连,可以让更多小伙伴看到;如果你想第一时间收到推送,也可以给我一个星标⭐️,感谢你的支持。 AI相关问题咨询,联系LutongxueAI
关于作者 陆同学AI,香港大学研究生,AI 相关的知识分享。 个人网站:https://f81b4fea.ai-toolkit-45v.pages.dev/[1]
引用链接
[1]https://f81b4fea.ai-toolkit-45v.pages.dev/
夜雨聆风