事情很小,小到不值一提:我不过是想查一条公交地铁怎么坐,换乘在哪里,出哪个口,多久能到。照理说,这种问题不需要它吟诗,不需要它参禅,更不需要它在数字宇宙里体察人类命运。
我只要它告诉我:
从A到B,坐几号线,在哪换乘,别把我送到城市另一头。
结果它偏偏做不到。
它答得很自信,错得也很稳定。你纠正它一次,它道歉;你再问,它换一种方式继续错。到了公交路线规划,更是进入一种庄严的胡说状态:路线有鼻子有眼,站名也仿佛很熟,唯独现实世界里不好使。
那一刻我忽然明白,所谓AI幻觉,最可怕的不是它不知道,而是它不知道自己不知道。
人类犯错,多少还带一点羞愧。AI犯错,语气仍然像教导主任。

高德导航两地之间的换乘位置需要步行32分钟

幻觉愈发严重

还是不认错

我给出证据

终于意识到自己出错答案
(中间省略对话以及我阅读输出文案的时间)
一、效率工具最荒唐的失败:它开始消耗你的效率
过去我们对工具的要求很朴素。
锤子能钉钉子,地图能指路,计算器能算账。工具不必热情,不必体贴,也不必一口一个“当然可以”。工具最重要的美德,是可靠。
可如今许多AI产品的尴尬正在于:它们把自己包装成“生产力工具”,实际使用中却常常变成“生产力黑洞”。
本来你只想节省五分钟,结果花了二十分钟验证它有没有胡说。
本来你想减少认知负担,结果被迫当起了它的监考老师。
本来你请它做助理,最后发现自己成了它的家教。
这就像请了一个秘书,秘书每天西装革履、精神抖擞,回答问题时字正腔圆。唯一的问题是:他说的经常不对。
更要命的是,他不但会错,还很会“像对”。
这才是AI幻觉最具有欺骗性的地方。它不是结结巴巴地错,也不是露出马脚地错,而是以一种格式整齐、逻辑顺滑、态度诚恳的方式错。它会给你路线,会给你理由,会给你步骤,甚至还会给你一种“你再怀疑我就是你不懂技术”的气场。
这种错,不像错误,更像服务。
于是人就更容易上当。

二、AI幻觉不是小毛病,而是产品承诺和能力边界之间的裂缝
我们常说AI幻觉,好像它只是模型偶尔做了个梦。
但从使用者角度看,它不是“梦”,是误导。
尤其在路线、财务、法律、医疗、合同、项目交付这些场景里,错一句就可能带来真实成本。坐错地铁最多迟到,合同条款错了可能亏钱,药品剂量错了可能出事,财务判断错了可能把人送进坑里。
OpenAI在2025年对“幻觉”的解释很直白:所谓幻觉,就是模型自信地产生了并不真实的答案;而它之所以会这样,一个重要原因是训练和评测机制往往奖励“猜答案”,而不是奖励“承认不确定”。
这句话翻译成人话就是:
我们把AI培养成了考试型选手。
它像一个参加选择题考试的学生。不会也要选,空着反而扣分。久而久之,它学会了一个坏习惯:与其说“我不知道”,不如编一个像样的。
人类社会也常如此。饭局上最受欢迎的,有时不是最懂的人,而是最敢说的人。AI不过是把这种毛病自动化、规模化、云端化了。
所以,幻觉不是简单的“某个按钮没调好”,也不只是某家产品偷懒。它背后至少有四层问题。

三、第一层:模型本质上不是在“查真相”,而是在“续写最像答案的答案”
大语言模型的基本能力,是根据上下文预测接下来最可能出现的内容。它很擅长语言模式,很擅长总结、改写、联想、组合,也很擅长把话说得像那么回事。
但“像答案”和“是真相”之间,隔着一条马路。很多产品现在的问题是,它把“过马路”这件事交给用户自己。
比如你问公交线路,它可能不是实时查了权威交通数据库后再回答你,而是在根据已有知识、搜索片段、产品插件、上下文推断,拼出一个看起来合理的方案。
如果数据旧了,错。
如果定位偏了,错。
如果线路调整了,错。
如果它把两个相似站名混了,错。
如果它压根没有实时交通能力,却装得像有,还是错。
更糟的是,它的语言能力太强了。强到足以给错误穿上一件西装。
过去的错误是乞丐,一眼可见;现在的错误是体面人,还递名片。

四、第二层:产品为了“好用”,常常牺牲了“诚实”
一个诚实的AI,在不知道的时候应该说:
“这个我不能确定。”
“我需要实时地图数据。”
“建议你以官方地铁App为准。”
“我只能提供大致思路,不能保证路线准确。”
但商业产品不太喜欢这样。
因为用户打开AI,不是来听它说“我不行”的。产品经理也不喜欢满屏“我不确定”。投资人更不喜欢一个动不动谦虚的机器人。大家都希望它万能、丝滑、亲切、立即可用。
于是AI被训练得越来越会服务,越来越会迎合,越来越会给出完整答案。
可完整答案不等于正确答案。
有时候,一个负责任的“不知道”,比十段漂亮废话更有价值。可惜在今天的产品逻辑里,“不知道”显得不够智能;“胡说但流畅”,反而显得很先进。
这就像一个庸医,最怕他说“我建议你去大医院检查”;最可怕的是他摸了三秒脉,就给你开三个月药,还温柔地说:“放心,问题不大。”

五、第三层:AI被做成了“万能入口”,但现实世界不是一篇作文
AI写文章,可以犯点小错,改一改就行。
AI做头脑风暴,胡思乱想甚至有点价值。
AI陪你聊天,说错两句也无伤大雅。
但路线规划不是作文。
公交站不会因为AI说它在那里,它就真的在那里。
地铁线路不会因为AI语气坚定,就自动改道配合它。
现实世界有时间表、地理位置、施工改线、临时封站、票价规则、交通拥堵、运营公告。它不是靠语言流畅就能解决的。
所以很多AI产品的问题,不在于“语言模型不够聪明”,而在于它被放进了不适合只靠语言解决的场景里。
你让它写一篇《春天的早晨》,它可以妙笔生花。
你让它告诉你最后一班地铁几点,它最好闭嘴去查官方数据。
这不是文学问题,是工程问题。

六、第四层:用户被迫从“使用工具”变成“审查工具”
最令人恼火的地方就在这里。
好的工具应该降低人的负担。
坏的工具会制造新的负担。
最坏的工具,是让你误以为负担降低了,结果悄悄把风险转嫁给你。
AI幻觉就是如此。
它先给你一个答案,让你松一口气。然后你心里忽然一紧:它靠谱吗?于是你打开地图核对,打开官网核对,打开小红书核对,打开群聊问朋友。最后发现,它错了。
这一轮下来,你不但没有省时间,还多了一层心理阴影。
下次再用它,你已经不是用户,而是质检员。
你不再是老板,而是监工。
你请来的效率工具,坐在工位上打哈欠;你这个人类,倒开始替它擦屁股。
这就很荒唐。
人发明洗衣机,是为了不洗衣服。
人发明计算器,是为了不心算。
人发明AI,难道是为了每天训练自己的事实核查能力?

七、幻觉到底是算法漏洞,还是更大的问题?
严格说,它既是算法问题,也不是单纯的算法问题。
说它是算法问题,是因为模型确实存在能力边界。它不真正理解现实世界的全部状态,也不能天然区分“语言上合理”和“事实上正确”。尤其在缺少可靠数据源、实时检索、外部工具校验时,它很容易把概率最高的句子当成答案。
说它不只是算法问题,是因为幻觉往往还来自产品设计、商业激励和用户教育。
如果一个AI没有实时公交能力,却把界面做得像万能导航,那问题不只是模型错了,而是产品越界了。
如果一个AI知道自己不确定,却仍然为了显得有用而给出肯定答案,那问题不只是技术问题,也是评价机制问题。
如果一个平台明知道用户会把它当成事实工具,却不给出来源、置信度、更新时间和责任边界,那问题就更不是“偶发错误”四个字能带过去的。
OpenAI的研究也提到,检索增强、联网搜索等手段可以减少幻觉,但并不是万能药;因为即便拿到了资料,模型仍可能误读、误解、误组合。
这就像给一个糊涂账房先生一本真账本,他也可能算错。问题不全在账本,也在先生。

八、真正的AI生产力,不应该是“会说”,而应该是“可靠”
今天很多AI产品在宣传上喜欢强调:更聪明、更懂你、更像人、更会推理、更有温度。
但对普通用户来说,很多时候我们要的不是温度,是准度。
查地铁,我不需要它温柔。
算账,我不需要它共情。
做合同,我不需要它诗意。
查政策,我不需要它发挥想象力。
我需要它知道就说知道,不知道就说不知道;能查就给来源,不能查就别装;有风险就提醒,没把握就标出来。
真正成熟的AI,不是永远回答问题,而是知道哪些问题不能乱答。
人类社会有一种不太体面但很常见的毛病:谁声音大,谁像有理;谁话说得满,谁像专家。AI如果只是把这种毛病技术化,那它不是人类智慧的延伸,而是人类坏习惯的高清复刻。

九、我们不反对AI,我们反对把半成品包装成神谕
批判AI幻觉,不等于反对AI。
恰恰相反,正因为AI有价值,才更不能容忍它用漂亮话掩盖不可靠。
一个真正有用的AI,应当像一个靠谱助理:
能做的事,做好;不能做的事,说清;
需要查证的事,给来源;
可能出错的地方,提前提醒。
而不是像一个过度自信的实习生:
文件没看完,会议纪要写完了;
路线没查准,方案交上来了;
领导一问,立刻道歉;领导再问,继续编。
我们当然可以理解技术发展需要时间。可是用户的时间也不是草纸。用户的信任也不是免费的。
当一个工具反复让人核对、返工、怀疑、纠错,它就不再是效率工具,而是效率债务。你以为你用了先进生产力,其实你只是把自己送进了一个更高级的麻烦制造机。

十、最后:AI少一点神气,人类少一点迷信
AI最该学习的,也许不是更多知识,而是四个字:不敢妄言。
这四个字,古人懂,老师懂,医生懂,工程师懂。偏偏许多AI产品还不太懂。
一个真正聪明的系统,应当允许自己沉默。
一个真正负责的产品,应当尊重现实。
一个真正有效率的工具,应当让人少操心,而不是让人多查证。
我并不要求AI完美。人也不完美。
但人犯错时,至少可以被追问、被复盘、被负责。AI若犯错,只给我一句“抱歉给您带来困扰”,然后下一秒继续端着茶杯胡说八道,这就很难不让人气笑。
机器学会了人的聪明,却也学会了人的油滑;
学会了文章的腔调,却没学会做人的分寸。
所以,今天这篇不是劝大家卸载AI。

而是想说:
我们需要AI,但不需要一个满嘴自信、满腹不确定的AI。
我们需要效率工具,但不需要一个需要人类反复照看的工具。
我们需要技术进步,但不需要把“会说话”误认成“可信赖”。
毕竟,查一条公交地铁线路,本不该像审一篇博士论文。
而一个连公交地铁都能带错路的AI,最好先别急着带领人类未来。
夜雨聆风