AI正在杀死搜索引擎,但没人告诉你替代品也在骗你

AI搜索在60%的时候都在骗你，但它说得比谁都自信。

你有没有做过那种自己都解释不了的搜索？

我昨天做了一个。

事情是这样的。前天晚上刷Hacker News的时候，看到一个帖子，有人说他用Perplexity查一个经济学数据，Perplexity给了他一个精确到小数点后两位的数字，还附了一篇论文的链接。他点进去一看，论文是真的，但那个数字在论文里根本不存在。

Perplexity自己编了一个数字，然后找了一篇真论文来「证明」它。

我当时的反应是，不是吧哥们儿。

然后我就开始了一个持续两天的实验。我拿了20个事实性问题，从「中国2025年GDP增速是多少」到「Claude Mythos是什么时候发布的」，挨个丢给了五个AI搜索工具，ChatGPT Search、Perplexity、Google Gemini、Grok、Kimi。

然后逐条核实它们给的答案和引用来源。

结果让我后背发凉。

五个AI搜索，没有一个让我放心

先说结论。

20个问题，五个工具，总共100次回答。

完全正确且引用准确的，不到40次。

也就是说，超过60%的回答，要么答案有误，要么引用的来源跟答案对不上，要么引用的链接根本打不开，要么引用的文章里压根没有它说的那个信息。

60%。

这不是我一个人的发现。哥伦比亚大学Tow新闻中心去年做了一个更大规模的研究，测了8个AI搜索引擎，结论是，这些工具在超过60%的查询中给出了错误的引用。

60%。跟我的结果几乎一模一样。

而且最离谱的不是错误本身，是它们错的方式。

传统搜索引擎，比如Google，它给你一堆链接，你自己点进去看。信息对不对，你自己判断。它是一个中介，一个图书管理员，帮你找到书架在哪，但不替你读书。

AI搜索不一样。它直接给你一个「答案」。自信满满的，语气笃定的，还贴心地附上了引用来源。看起来就像一个专家在跟你说话。

但这个「专家」，有六成的概率在胡说八道。

而且它从来不说「我不确定」。

我测出来的几种「骗法」

两天测下来，我把AI搜索的错误归成了四种类型。每一种都让我越想越不对劲。

第一种，「真论文假数据」。

就是开头说的那种。它给你引用了一篇真实存在的论文或报道，链接能打开，标题也对，但它从里面「提取」的数据或结论，原文里根本没有。

这是最阴的一种。因为你如果只看到它给了引用链接，你会觉得「哦，有出处，应该靠谱」。但你真的点进去逐字核对，才会发现它在编。

我测的20个问题里，这种情况出现了至少7次。

第二种，「幽灵引用」。

它给你的链接，点进去是404。或者链接指向的页面确实存在，但内容跟它说的完全无关。

arxiv上有一篇论文专门研究了这个现象，他们管这叫「幽灵引用率」。在AI辅助写作的学术论文里，有17%的引用是幽灵引用，根本找不到对应的真实文献。

17%。将近五分之一。

而且这些幽灵引用长得特别像真的。作者名、期刊名、年份、卷号，格式完美，就是这篇论文不存在。

第三种，「反向引用」。

这个是最让我震惊的。

它引用了一篇真实的论文，论文也确实存在，但论文的结论跟AI告诉你的恰好相反。

有一个研究团队专门分析了这种现象，他们把AI引用错误分成三个层级，编造的（DOI不存在）、张冠李戴的（DOI存在但指向错误的论文）、反向的（论文真实存在，但AI把结论说反了）。

前两种还好发现，第三种几乎不可能被普通用户察觉。因为你点进去，论文是真的，标题也相关，你不把全文读完，根本不知道AI在撒谎。

第四种，「自引循环」。

这个是Google特有的问题。Google的AI Mode在生成回答的时候，有21%的引用链接指向的是Google自己的页面，而不是原始信息来源。

你问Google一个问题，Google用AI给你一个答案，然后引用来源是Google自己之前生成的另一个AI答案。

信息在Google内部转了一圈，跟原始事实已经没有任何关系了。

这让我想到一个词，信息近亲繁殖。

最好的和最差的

说说具体表现。

表现最好的是Perplexity。没错，虽然开头那个故事就是Perplexity翻车的，但在我的20个问题里，它的准确率大概在63%左右，是五个里面最高的。它的引用质量也相对最好，大部分时候能给出真实可查的来源。

但63%是什么概念？你去医院看病，医生有37%的概率给你开错药，你还敢吃吗？

表现最差的是Grok。哥伦比亚大学那个研究里，Grok的错误率高达94%。我自己测下来没那么夸张，但也确实是五个里面最不靠谱的。它经常给出一个非常具体的数字，精确到让你觉得它一定是从哪查到的，但你去核实，根本找不到来源。

越具体，越可疑。

这是我两天实验下来最大的感受。

AI搜索给你的答案越精确、越自信、越像「专家口吻」，你越要警惕。因为真正的专家会说「大约」「根据某某研究」「目前的数据显示」，而AI搜索直接甩给你一个斩钉截铁的结论。

ChatGPT Search和Gemini在中间，各有各的问题。ChatGPT Search的答案质量还行，但引用经常对不上。Gemini的引用质量稍好，但答案本身有时候会跑偏。

Kimi在中文问题上表现不错，但一旦涉及英文来源，准确率就明显下降。

没有一个让我能闭着眼睛信的。

一个都没有。

这事为什么比你想的严重得多

你可能会说，AI搜索不准确，那我多查几个来源不就行了？

问题是，越来越多的人不会这么做了。

Gartner预测，到2026年底，传统搜索引擎的流量会下降25%。Google自己的数据显示，68%的搜索现在以「零点击」结束，用户看完AI生成的摘要就走了，根本不会点进任何链接。

68%。

将近七成的人，看到AI给的答案就信了，不会去核实。

而AI搜索现在已经处理了北美27.4%的信息类查询。ChatGPT每周8亿活跃用户，其中相当一部分在把它当搜索引擎用。

你想想这个规模。每周有数亿人在向一个60%概率会出错的系统询问事实性问题，而且大部分人不会核实答案。

这不是一个技术bug。这是一个认知基础设施的系统性风险。

我们正在把人类知识的入口，从一个「帮你找书」的图书管理员，换成一个「替你读书然后告诉你结论」的AI。但这个AI，有六成的概率在瞎编。

而且它编得越来越好了。

一个更深层的问题，知识塌缩

顺着这个再聊聊一个让我想了很久的事。

AI搜索不只是在给你错误的答案。它可能正在从根本上改变「知识」本身的结构。

有一个概念叫「知识塌缩」。

简单说就是，当越来越多的人通过AI来获取信息，而AI的训练数据又包含了大量AI自己生成的内容，就会形成一个闭环。AI生成内容 → 内容被发布到互联网 → 新的AI用这些内容来训练 → 生成更多类似的内容。

每循环一次，信息的多样性就降低一点。那些小众的、边缘的、不那么「主流」的知识，会在每一轮循环中被稀释，最终消失。

就像复印机复印复印件，每一代都会丢失一点细节，最后你拿到的东西跟原件已经面目全非了。

arxiv上有一篇论文专门研究了这个现象。他们发现，当AI模型在自己生成的数据上反复训练之后，会出现一个诡异的模式，表面上的流畅度不变，甚至还在提升，但事实准确性在持续下降。

他们管这叫「自信地犯错」。

听着耳熟吗？

这不就是AI搜索现在的状态吗。回答越来越流畅，语气越来越自信，但准确率。。。

而且这个问题会自我加速。

你想想，现在互联网上有多少内容是AI生成的？有人估计已经超过了30%。这些AI生成的内容会被搜索引擎索引，会被其他AI引用，会被下一代AI模型用来训练。

AI在引用AI。AI在学习AI。AI在验证AI。

人类的原始知识，那些来自实验、观察、思考、争论的第一手信息，正在被一层又一层的AI转述所覆盖。

这让我想到鲍德里亚在1981年写的《拟像与仿真》。他说，现代社会正在用符号和仿真替代现实，最终我们会生活在一个「超真实」的世界里，仿真比现实更真实，符号比它所指代的东西更有说服力。

四十五年前写的东西，放到今天简直像预言。

AI搜索就是一个完美的「拟像机器」。它生成的答案看起来比你自己去查资料得到的结论更完整、更流畅、更有说服力。但它可能跟事实没有任何关系。

而你分不出来。

那个让我最不安的瞬间

两天实验里，有一个瞬间让我特别不安。

我问了一个关于最近AI新闻的问题，五个工具都给了我答案，而且五个答案高度一致。数字一样，结论一样，甚至措辞都差不多。

我差点就信了。

然后我去查了原始来源，发现五个工具引用的其实是同一篇文章，而那篇文章本身就是AI生成的，里面的数据是编的。

五个AI搜索引擎，引用了同一篇AI生成的假文章，给出了同一个假答案。

而且因为五个都说一样的话，你会觉得「这么多来源都一致，肯定是对的吧」。

这就是最可怕的地方。

以前我们说「兼听则明」，多查几个来源就能接近真相。但如果所有来源都在引用同一个AI生成的内容，那你查再多也没用。

多样性消失了。交叉验证失效了。

你以为你在从不同角度确认同一个事实，其实你只是在看同一面镜子的不同反射。

我们正在失去什么

说到这里，我想聊一个更私人的感受。

作为一个写了十几年代码的人，我对「搜索」这件事有很深的感情。

写代码的人都知道，debug的时候最重要的能力不是写代码，是搜索。你遇到一个报错，第一件事就是把错误信息丢进Google，然后在Stack Overflow的回答里一条一条翻，看哪个跟你的情况最像。

这个过程很慢，很笨，但它有一个巨大的好处，你在搜索的过程中，会看到很多「不相关」的信息。你会看到别人遇到的类似但不同的问题，你会看到不同的解决思路，你会看到有人在评论区吵架说「这个方法不对，应该用那个」。

这些「噪音」，其实是最有价值的东西。

因为它们让你建立了一个关于这个问题的「认知地图」。你不只是知道了答案，你还知道了这个答案的上下文，知道了其他可能的答案，知道了为什么有些方法行有些不行。

AI搜索把这些全砍掉了。

它直接给你一个答案。干净、利落、高效。

但你的认知地图没有了。

你知道了「是什么」，但不知道「为什么」和「还有什么」。

这让我想起上周写的那篇文章里提到的研究，用AI十分钟，大脑就开始「变软」。不是变笨了，是变得不自信了，变得不愿意自己想了。

AI搜索可能正在做同样的事情，但规模更大。

它不是在让你变笨，是在让你变懒。不是认知能力的下降，是认知意愿的下降。

你不再愿意花时间去翻十页搜索结果了。你不再愿意点进三四个链接去交叉验证了。你不再愿意自己判断哪个来源更可信了。

因为AI已经替你做了。

但它做得对不对，你不知道。而且你越来越不在乎知不知道。

这才是最让我不安的地方。

那我们该怎么办

说实话，写到这里我有点沮丧。

因为这个问题没有简单的解决方案。你不能说「别用AI搜索」，就像你不能说「别用互联网」一样。技术已经在那里了，而且它确实在很多场景下比传统搜索更快更方便。

但至少有几件事是你现在就可以做的。

第一，永远点进引用链接。

AI搜索给你的每一个「来源」，都点进去看一眼。不需要读完全文，但至少确认，这个链接能打开，这篇文章确实存在，AI说的那个关键信息确实在文章里。

这个动作只需要30秒，但能帮你过滤掉至少一半的错误。

第二，对精确数字保持警惕。

AI搜索给你一个精确到小数点后两位的数字，不要觉得「哇好专业」。恰恰相反，越精确越要怀疑。因为真实世界里的数据往往是模糊的、有范围的、带条件的。一个斩钉截铁的精确数字，很可能是AI编的。

第三，用传统搜索做交叉验证。

AI搜索给了你一个答案之后，把关键信息丢进Google搜一下。不是用Google的AI Overview，是用传统的搜索结果。看看能不能找到独立的、非AI生成的来源来验证。

第四，也是最重要的，保持你的「认知免疫力」。

什么是认知免疫力？就是当你看到一个信息的时候，你的第一反应不是「哦，原来是这样」，而是「等等，这个对吗？」

这种本能正在被AI搜索的「自信语气」慢慢侵蚀。因为它说得太像真的了，太流畅了，太完整了。你的大脑会本能地觉得「说得这么好，应该是对的吧」。

但说得好和说得对，是两件完全不同的事。

AI是人类历史上最会「说得好」的机器。但「说得对」这件事，它还差得远。

写在最后

两天的实验做完，我有一个很强烈的感受。

我们正在经历一场静悄悄的认知革命。

不是那种轰轰烈烈的、所有人都能感知到的变化。而是一种温水煮青蛙式的、你不刻意去想就完全察觉不到的变化。

每天，数亿人在向AI搜索提问。每天，AI搜索在用60%的错误率回答这些问题。每天，这些错误的答案被人们接受、传播、引用，变成新的「事实」。

然后这些「事实」又被AI学习，生成更多类似的「事实」。

循环往复。

鲍德里亚说，当仿真完全替代了现实，我们就进入了「超真实」的世界。在那个世界里，没有人关心什么是真的，因为仿真已经比真实更有说服力了。

我不知道我们离那个世界还有多远。

但我知道，每次你不加验证地接受一个AI搜索的答案，我们就离那个世界近了一步。

每次你点进引用链接去核实，我们就离那个世界远了一步。

这听起来好像很小的一件事。

但很多大事，都是从很小的一步开始的。

能做的，还是那句话。

磨平一点点信息差。

哪怕，只是很小很小的一点。

谢谢你阅读我的文章，我们，下次再见。

作者，rocs