AI搜索在60%的时候都在骗你,但它说得比谁都自信。
你有没有做过那种自己都解释不了的搜索?
我昨天做了一个。
事情是这样的。前天晚上刷Hacker News的时候,看到一个帖子,有人说他用Perplexity查一个经济学数据,Perplexity给了他一个精确到小数点后两位的数字,还附了一篇论文的链接。他点进去一看,论文是真的,但那个数字在论文里根本不存在。
Perplexity自己编了一个数字,然后找了一篇真论文来「证明」它。
然后我就开始了一个持续两天的实验。我拿了20个事实性问题,从「中国2025年GDP增速是多少」到「Claude Mythos是什么时候发布的」,挨个丢给了五个AI搜索工具,ChatGPT Search、Perplexity、Google Gemini、Grok、Kimi。
然后逐条核实它们给的答案和引用来源。
结果让我后背发凉。

五个AI搜索,没有一个让我放心
先说结论。
20个问题,五个工具,总共100次回答。
完全正确且引用准确的,不到40次。
也就是说,超过60%的回答,要么答案有误,要么引用的来源跟答案对不上,要么引用的链接根本打不开,要么引用的文章里压根没有它说的那个信息。
60%。
这不是我一个人的发现。哥伦比亚大学Tow新闻中心去年做了一个更大规模的研究,测了8个AI搜索引擎,结论是,这些工具在超过60%的查询中给出了错误的引用。
60%。跟我的结果几乎一模一样。
而且最离谱的不是错误本身,是它们错的方式。
传统搜索引擎,比如Google,它给你一堆链接,你自己点进去看。信息对不对,你自己判断。它是一个中介,一个图书管理员,帮你找到书架在哪,但不替你读书。
AI搜索不一样。它直接给你一个「答案」。自信满满的,语气笃定的,还贴心地附上了引用来源。看起来就像一个专家在跟你说话。
但这个「专家」,有六成的概率在胡说八道。
而且它从来不说「我不确定」。
我测出来的几种「骗法」
两天测下来,我把AI搜索的错误归成了四种类型。每一种都让我越想越不对劲。
第一种,「真论文假数据」。
就是开头说的那种。它给你引用了一篇真实存在的论文或报道,链接能打开,标题也对,但它从里面「提取」的数据或结论,原文里根本没有。
这是最阴的一种。因为你如果只看到它给了引用链接,你会觉得「哦,有出处,应该靠谱」。但你真的点进去逐字核对,才会发现它在编。
我测的20个问题里,这种情况出现了至少7次。
第二种,「幽灵引用」。
它给你的链接,点进去是404。或者链接指向的页面确实存在,但内容跟它说的完全无关。
arxiv上有一篇论文专门研究了这个现象,他们管这叫「幽灵引用率」。在AI辅助写作的学术论文里,有17%的引用是幽灵引用,根本找不到对应的真实文献。
17%。将近五分之一。
而且这些幽灵引用长得特别像真的。作者名、期刊名、年份、卷号,格式完美,就是这篇论文不存在。
第三种,「反向引用」。
这个是最让我震惊的。
它引用了一篇真实的论文,论文也确实存在,但论文的结论跟AI告诉你的恰好相反。
有一个研究团队专门分析了这种现象,他们把AI引用错误分成三个层级,编造的(DOI不存在)、张冠李戴的(DOI存在但指向错误的论文)、反向的(论文真实存在,但AI把结论说反了)。
前两种还好发现,第三种几乎不可能被普通用户察觉。因为你点进去,论文是真的,标题也相关,你不把全文读完,根本不知道AI在撒谎。
第四种,「自引循环」。
这个是Google特有的问题。Google的AI Mode在生成回答的时候,有21%的引用链接指向的是Google自己的页面,而不是原始信息来源。
你问Google一个问题,Google用AI给你一个答案,然后引用来源是Google自己之前生成的另一个AI答案。
信息在Google内部转了一圈,跟原始事实已经没有任何关系了。
这让我想到一个词,信息近亲繁殖。

最好的和最差的
说说具体表现。
表现最好的是Perplexity。没错,虽然开头那个故事就是Perplexity翻车的,但在我的20个问题里,它的准确率大概在63%左右,是五个里面最高的。它的引用质量也相对最好,大部分时候能给出真实可查的来源。
但63%是什么概念?你去医院看病,医生有37%的概率给你开错药,你还敢吃吗?
表现最差的是Grok。哥伦比亚大学那个研究里,Grok的错误率高达94%。我自己测下来没那么夸张,但也确实是五个里面最不靠谱的。它经常给出一个非常具体的数字,精确到让你觉得它一定是从哪查到的,但你去核实,根本找不到来源。
越具体,越可疑。
这是我两天实验下来最大的感受。
AI搜索给你的答案越精确、越自信、越像「专家口吻」,你越要警惕。因为真正的专家会说「大约」「根据某某研究」「目前的数据显示」,而AI搜索直接甩给你一个斩钉截铁的结论。
ChatGPT Search和Gemini在中间,各有各的问题。ChatGPT Search的答案质量还行,但引用经常对不上。Gemini的引用质量稍好,但答案本身有时候会跑偏。
Kimi在中文问题上表现不错,但一旦涉及英文来源,准确率就明显下降。
没有一个让我能闭着眼睛信的。
一个都没有。
这事为什么比你想的严重得多
你可能会说,AI搜索不准确,那我多查几个来源不就行了?
问题是,越来越多的人不会这么做了。
Gartner预测,到2026年底,传统搜索引擎的流量会下降25%。Google自己的数据显示,68%的搜索现在以「零点击」结束,用户看完AI生成的摘要就走了,根本不会点进任何链接。
68%。
将近七成的人,看到AI给的答案就信了,不会去核实。
而AI搜索现在已经处理了北美27.4%的信息类查询。ChatGPT每周8亿活跃用户,其中相当一部分在把它当搜索引擎用。
你想想这个规模。每周有数亿人在向一个60%概率会出错的系统询问事实性问题,而且大部分人不会核实答案。
这不是一个技术bug。这是一个认知基础设施的系统性风险。
我们正在把人类知识的入口,从一个「帮你找书」的图书管理员,换成一个「替你读书然后告诉你结论」的AI。但这个AI,有六成的概率在瞎编。
而且它编得越来越好了。

一个更深层的问题,知识塌缩
顺着这个再聊聊一个让我想了很久的事。
AI搜索不只是在给你错误的答案。它可能正在从根本上改变「知识」本身的结构。
有一个概念叫「知识塌缩」。
简单说就是,当越来越多的人通过AI来获取信息,而AI的训练数据又包含了大量AI自己生成的内容,就会形成一个闭环。AI生成内容 → 内容被发布到互联网 → 新的AI用这些内容来训练 → 生成更多类似的内容。
每循环一次,信息的多样性就降低一点。那些小众的、边缘的、不那么「主流」的知识,会在每一轮循环中被稀释,最终消失。
就像复印机复印复印件,每一代都会丢失一点细节,最后你拿到的东西跟原件已经面目全非了。
arxiv上有一篇论文专门研究了这个现象。他们发现,当AI模型在自己生成的数据上反复训练之后,会出现一个诡异的模式,表面上的流畅度不变,甚至还在提升,但事实准确性在持续下降。
他们管这叫「自信地犯错」。
听着耳熟吗?
这不就是AI搜索现在的状态吗。回答越来越流畅,语气越来越自信,但准确率。。。
而且这个问题会自我加速。
你想想,现在互联网上有多少内容是AI生成的?有人估计已经超过了30%。这些AI生成的内容会被搜索引擎索引,会被其他AI引用,会被下一代AI模型用来训练。
AI在引用AI。AI在学习AI。AI在验证AI。
人类的原始知识,那些来自实验、观察、思考、争论的第一手信息,正在被一层又一层的AI转述所覆盖。
这让我想到鲍德里亚在1981年写的《拟像与仿真》。他说,现代社会正在用符号和仿真替代现实,最终我们会生活在一个「超真实」的世界里,仿真比现实更真实,符号比它所指代的东西更有说服力。
四十五年前写的东西,放到今天简直像预言。
AI搜索就是一个完美的「拟像机器」。它生成的答案看起来比你自己去查资料得到的结论更完整、更流畅、更有说服力。但它可能跟事实没有任何关系。
而你分不出来。
那个让我最不安的瞬间
两天实验里,有一个瞬间让我特别不安。
我问了一个关于最近AI新闻的问题,五个工具都给了我答案,而且五个答案高度一致。数字一样,结论一样,甚至措辞都差不多。
我差点就信了。
然后我去查了原始来源,发现五个工具引用的其实是同一篇文章,而那篇文章本身就是AI生成的,里面的数据是编的。
五个AI搜索引擎,引用了同一篇AI生成的假文章,给出了同一个假答案。
而且因为五个都说一样的话,你会觉得「这么多来源都一致,肯定是对的吧」。
这就是最可怕的地方。
以前我们说「兼听则明」,多查几个来源就能接近真相。但如果所有来源都在引用同一个AI生成的内容,那你查再多也没用。
多样性消失了。交叉验证失效了。
你以为你在从不同角度确认同一个事实,其实你只是在看同一面镜子的不同反射。

我们正在失去什么
说到这里,我想聊一个更私人的感受。
作为一个写了十几年代码的人,我对「搜索」这件事有很深的感情。
写代码的人都知道,debug的时候最重要的能力不是写代码,是搜索。你遇到一个报错,第一件事就是把错误信息丢进Google,然后在Stack Overflow的回答里一条一条翻,看哪个跟你的情况最像。
这个过程很慢,很笨,但它有一个巨大的好处,你在搜索的过程中,会看到很多「不相关」的信息。你会看到别人遇到的类似但不同的问题,你会看到不同的解决思路,你会看到有人在评论区吵架说「这个方法不对,应该用那个」。
这些「噪音」,其实是最有价值的东西。
因为它们让你建立了一个关于这个问题的「认知地图」。你不只是知道了答案,你还知道了这个答案的上下文,知道了其他可能的答案,知道了为什么有些方法行有些不行。
它直接给你一个答案。干净、利落、高效。
但你的认知地图没有了。
你知道了「是什么」,但不知道「为什么」和「还有什么」。
这让我想起上周写的那篇文章里提到的研究,用AI十分钟,大脑就开始「变软」。不是变笨了,是变得不自信了,变得不愿意自己想了。
AI搜索可能正在做同样的事情,但规模更大。
它不是在让你变笨,是在让你变懒。不是认知能力的下降,是认知意愿的下降。
你不再愿意花时间去翻十页搜索结果了。你不再愿意点进三四个链接去交叉验证了。你不再愿意自己判断哪个来源更可信了。
但它做得对不对,你不知道。而且你越来越不在乎知不知道。
这才是最让我不安的地方。
那我们该怎么办
说实话,写到这里我有点沮丧。
因为这个问题没有简单的解决方案。你不能说「别用AI搜索」,就像你不能说「别用互联网」一样。技术已经在那里了,而且它确实在很多场景下比传统搜索更快更方便。
但至少有几件事是你现在就可以做的。
第一,永远点进引用链接。
AI搜索给你的每一个「来源」,都点进去看一眼。不需要读完全文,但至少确认,这个链接能打开,这篇文章确实存在,AI说的那个关键信息确实在文章里。
这个动作只需要30秒,但能帮你过滤掉至少一半的错误。
第二,对精确数字保持警惕。
AI搜索给你一个精确到小数点后两位的数字,不要觉得「哇好专业」。恰恰相反,越精确越要怀疑。因为真实世界里的数据往往是模糊的、有范围的、带条件的。一个斩钉截铁的精确数字,很可能是AI编的。
第三,用传统搜索做交叉验证。
AI搜索给了你一个答案之后,把关键信息丢进Google搜一下。不是用Google的AI Overview,是用传统的搜索结果。看看能不能找到独立的、非AI生成的来源来验证。
第四,也是最重要的,保持你的「认知免疫力」。
什么是认知免疫力?就是当你看到一个信息的时候,你的第一反应不是「哦,原来是这样」,而是「等等,这个对吗?」
这种本能正在被AI搜索的「自信语气」慢慢侵蚀。因为它说得太像真的了,太流畅了,太完整了。你的大脑会本能地觉得「说得这么好,应该是对的吧」。
但说得好和说得对,是两件完全不同的事。
AI是人类历史上最会「说得好」的机器。但「说得对」这件事,它还差得远。
写在最后
两天的实验做完,我有一个很强烈的感受。
每次你点进引用链接去核实,我们就离那个世界远了一步。
这听起来好像很小的一件事。
但很多大事,都是从很小的一步开始的。
能做的,还是那句话。
磨平一点点信息差。
谢谢你阅读我的文章,我们,下次再见。
作者,rocs
夜雨聆风