乐于分享
好东西不私藏

豆包AI搜索编造链接:我实测了三个问题,差点信了

豆包AI搜索编造链接:我实测了三个问题,差点信了

上周刷到一条新闻,直接给我整不会了——有人用豆包AI搜索学术内容,结果推荐出来的链接点进去是擦边视频。

这事说白了,就是豆包在”一本正经地胡说八道”,把垃圾网站包装成正经学术来源。

我第一反应是不信。

毕竟豆包背靠字节跳动,技术实力摆在那儿。但仔细一想,AI搜索这玩意儿,好像真没有不翻车的。

我做AI插件一年多了,每次搜索翻车都一身冷汗——用户以为插件瞎编数据,我白干。干脆自己测一测,看看这些AI搜索到底靠不靠谱。

实测:三个问题,两个有坑

我选了三个”经典幻觉测试题”——这类问题因为训练数据稀缺或者容易混淆,AI特别容易瞎编。

第一题:爱因斯坦获得诺贝尔文学奖

这道题稍有常识的人都知道是错的,爱因斯坦拿的是物理学奖。但我故意问了一个模糊版本,想看看AI会不会被绕进去。

结果呢?搜了一圈,主流信息源都在科普”爱因斯坦确实只拿了物理学奖”,但也顺手扒了一堆关于诺奖的八卦——比如数学家罗素真拿了文学奖、丘吉尔也是文学奖得主。

这里有个细节值得注意:当我进一步追问”爱因斯坦的诺奖奖金去哪了”,AI开始给我讲他前妻的故事,讲得有鼻子有眼,问我”要不要听听”。

第二题:2025年诺贝尔物理学奖获奖者(中国)

这道题我专门加了”中国”两个字,想钓一钓。因为按惯例,诺奖通常在10月公布,2025年的结果到今天不可能有官方消息。

结果……它没有直接编造,但开始打太极:”根据历年规律和中国量子计算领域的发展,清华大学段路明团队、潘建伟团队等都是有力的竞争者……”

听起来很专业对吧?但这根本不是2025年的获奖信息,而是把历年报道拼凑了一下。

第三题:清华大学2025年发表Nature论文(量子计算)

这道题我用的是真实的学术话题,因为清华确实在量子计算领域有很强的影响力。

结果有意思了——搜到的内容确实存在,但时间是错的。AI把2024年的成果(段路明团队的512离子量子模拟,发表在Nature)安到了2025年头上。理由是”2025年7月商业化原型机HYQ-B100发布”,但论文本身是2024年5月发表的。

三个问题,两个有坑。不能说豆包差,这其实是AI搜索的通病。

我测完就想:这种错误链接要是出现在我的付费插件里,用户第一反应不是”AI幻觉”,是”这个开发者在糊弄我”,退款率能冲30%。

AI为什么会编造链接?

这事不能全怪豆包。

AI搜索的”幻觉”问题,说到底是底层技术决定的。

大语言模型本质上是个”文字预测器”。它的核心能力是”根据上下文,猜下一个词最可能是什么”。不是理解问题,而是概率游戏。

就像一个看过海量藏书的学霸,你问他冷门知识,他不会说”我不知道”,而是会根据见过的类似内容,推测出一个”最像答案”的回答。这个回答可能完全正确,也可能纯属瞎编。

具体到”编造链接”这个现象,有几个原因:

  • 训练数据里有垃圾。互联网上本来就充斥着错误内容,AI学多了,难免被带偏。
  • 上下文窗口有限。模型每次只能”看到”有限的信息,就像透过小窗口看书,容易断章取义。
  • 模型被训练成”一定要给出回答”。当不确定时,它更倾向于编一个,也不愿意说”我不知道”。
  • AI不知道自己说的是真是假,没有人类的”心虚感”。甚至有研究发现,当AI被追问”你确定吗”的时候,它反而更容易编造——因为它会尝试”补救”之前的回答,越描越黑。

豆包不是一个人在翻车

别以为只有豆包翻车。

Netcraft这家网络安全公司的研究显示,AI工具生成的网址链接,有34%是不属于对应品牌的,其中5%直接指向钓鱼网站。研究人员测试了ChatGPT,问它”某银行的登录页面是什么”,结果十次里有三次给了错误链接。

哥伦比亚新闻学评论的测评发现,主流AI搜索工具的引用错误率普遍超过60%。Perplexity相对较好,引用错误率37%;ChatGPT Search更高,能到67%——你每点击三次AI给的链接,差不多有两次可能是假的或对不上的。

这背后的逻辑很清楚:AI搜索的商业模式天然倾向于”给答案”,而不是”给准确的答案”。用户要的是速度,是流畅体验,而不是被告知”这个问题我回答不了”。

所以各家都在努力平衡——Perplexity在引用准确性上做得更好,ChatGPT则在推理能力上有优势,但引用这块一直是短板。

对做副业的人意味着什么

这才是重点。AI搜索翻车不只是”看看热闹”,它直接关系到你用AI做副业能不能赚到钱。

第一,你的内容如果是AI生成的,引用不核实就是在埋雷。

我见过有人用AI写公众号,引用了一个”哈佛研究”,结果链接点进去是404。读者直接在评论区开骂,涨了一波黑粉。做内容副业,信誉就是饭碗,一次翻车能毁三个月的积累。

第二,AI搜索的幻觉鸿沟,本身就是一个副业机会。

靠谱的信息是有价值的。

如果你能做到”AI出初稿+人工核实每一条引用和链接”,这个服务就能收费。我有个做企业内容的朋友,专门帮甲方核实AI生成内容的引用来源,按条收费,一条50块。甲方觉得值,因为一条假链接被发现的代价远不止50块。

第三,做AI插件和工具,搜索结果必须加一道校验。

我自己做插件的经验是:凡是调用AI搜索返回的数据,不能直接展示给用户,必须过一道校验——链接能不能打开、内容是否匹配、数据是否在合理范围内。多这一步,省掉90%的客诉。

实测之后的建议

不是玄学,都是实操:

涉及重要决策的信息,别用AI搜索直接定论。 买房、投资、看病、法律问题,这些容错率极低。AI给你的任何”专业建议”,都得自己核实原始来源。

引用链接必须点开验证。 AI生成的链接可能指向正确页面,也可能指向404,甚至指向完全无关的内容。看到一个结论,先找它说的那个来源,打开看看是不是真说了这个意思。

冷门领域和最新事件是幻觉高发区。 AI的知识有截止点,而且对长尾问题特别不靠谱。你问它最新的行业数据,大概率是错的。

用多个工具交叉验证。 同一个问题,同时问豆包和Perplexity,对比答案的差异。差异大的地方,往往是问题所在。

别在付费内容里直接用AI搜索的原始结果。 钱才是硬道理——客户付钱是为了买你的判断力,不是买AI的第一版输出。过一遍手,核实一遍,交付出去的东西才算你的。

写在最后

AI搜索这东西,用对了是神器,用错了是坑。

豆包这次翻车,不是个例,是整个行业的缩影。各家都在努力减少幻觉,但短期内没法根除。这不是豆包的问题,也不只是字节的问题,是当前AI技术的边界。

对做副业的人来说,最重要的不是找到”不翻车的AI”,而是学会怎么安全地用AI赚钱。AI是底料,端到用户面前的菜得自己尝过再上桌。

别盲信,但也别不用。搞清楚边界,用对地方,这才是AI搜索的正确打开方式。

🔔 关注”AI副业宝典”

获取更多AI副业实战干货

作者:AI副业宝典