我拿数学题测试AI,结果只有百度全部答对

最近群里有个段子特别火，说现在的部分AI产品就像个拥有豆包型人格的员工：态度极好，张口就来，错了立马滑跪道歉，但下次还敢接着瞎编。

前阵子期末考试复习季，我是真切体会到了这种性格的杀伤力。那天晚上，我上初二的表弟拿着一道几何题来找我，如图，已知点0为直线AB上一点，OD平分∠BOC，∠DOE=90°.

(1)若∠BOC=40°，求∠AOE的度数;

(2)若∠COD=2∠EOF，则∠AOF与∠DOF是否相等？请说明理由。

因为毕业多年，智商有点退化，我搁草稿纸上画了半天也没理出头绪，表弟在旁边叹气，整得我挺没面子。为了强行挽尊，我掏出手机打开豆包拍照搜题。豆包秒出答案：(1)∠A0E=70°;

(2)∠AOF与∠DOF不相等，推导如上。

好家伙，步骤写得那叫一个逻辑严密，公式推导写得有模有样。我刚准备照着给表弟讲，但瞄了一眼原图，这第2问好像不对？

我顺手去搜了搜，发现网上好多网友都在吐槽类似经历，甚至有人整理了AI给出错误答案后的标准道歉话术：抱歉，我的前一个逻辑有漏洞，重新为您推导……然后接着又给出了一个依然错误的答案。

如果这道题我自己也拿不准，大概率就被带沟里了。情急之下，我打开了百度APP，用点击搜索框里的相机按钮也拍了一下。结果，百度给出的答案是两角相等，答案下方还挂载了多个权威题库的来源卡片。点进去一看，几本不同版本的教辅里都有这道原题，答案互相印证，都是∠AOF=∠DOF。

这就好比别的AI是凭着记忆在饭桌上跟你侃侃而谈，听着挺顺但可能全是瞎编的；而百度是翻出了档案库里的原始文件拍在你面前：你看，白纸黑字写着呢。这事儿引发了我的好奇，大模型到底能不能当家教？为了弄清楚，我搞了次硬核实测。

多学科硬核实测：5道题测出AI原形

我拉取了数学、物理、地理3个学科的5道真实考题，对百度、豆包、元宝、千问和作业帮做了一次横向测评。这里截取几个典型的对比案例。

案例一：数学空间几何题

在这道涉及辅助线的几何题中，豆包在识别图形时出现了偏差，把锐角当钝角来算，绕了一大圈给出了错误答案。元宝在多步骤推理中的公式调用没问题，但一大堆数据堆起来看得头大，给出了正确答案但对于怎么解题还是一知半解。

百度不仅精准识别了图形条件，还自动给出了辅助线示意，解题步骤条理清晰。答案下方还有「文心老师1V1精讲」入口，点击后文心老师会自动开讲，在线板书并分层讲解，遇到不懂的还能互动问答，比较完整地还原了老师真实讲课的场景。

案例二：物理电学实验题

这题考验对仪表读数的把控。豆包看似分析过程条理清晰、说得头头是道，可实际读出的温度计、电流表数值全部出错，三道填空题足足错了两道，基础读数环节就存在明显疏漏，可不敢用它来解题。

百度不仅答案全对、读数规范，还通过题库检索展示了这道题的多个来源，答案相互校验，降低了答案正确但过程错误的风险。

揭秘大模型翻车真相，为什么AI会一本正经地胡说八道？

连代码都能写的AI，为什么会在初中题上翻车？我用大白话给大家拆解下大模型的底层原理。

大模型本质上是个超级文字接龙选手。当你抛给它一个问题时，它并不是像人类那样去思考逻辑，而是在统计概率的基础上预测下一个最可能出现的词是什么。

这就导致了大模型容易出现所谓的幻觉，主要分两种情况：

第一种是内在幻觉，也就是自己瞎编。比如南非之前有个被撤回的《国家人工智能政策草案》，里面引用的学术论文一大半是AI编造的，根本不存在。辅导作业也是同理，AI知道几何题的标准格式长什么样，能熟练堆砌“全等三角形”“正弦定理”等词汇。但如果第一步的图形条件识别错了，后面算得越认真，错得越有仪式感。它本身缺乏对客观事实的校验机制，只会编一个听起来合理的答案。

第二种是外在幻觉，也就是被错误信息喂毒。大模型在联网搜索时，如果缺乏权威权重机制，很容易把网络上的一些错误内容或被投毒的垃圾信息当成事实复读出来。比如此前有博主测试，只需在社交平台发几条笔记，用点提示词注入技巧，就能让部分AI信以为真并输出错误结论。

那为什么百度在这方面的表现更稳定？因为百度走的是搜索+AI双引擎驱动的路线。

百度的底层逻辑是检索优先。依托多年积累的搜索引擎能力，其系统内官方教辅、知名媒体等权威内容的权重远远高于普通小号笔记。在处理教育问题时，百度不仅依赖大模型生成，还会去检索其长期积累的教材、题库和知识图谱进行校验。

简单来说，百度的AI不是在单纯猜答案，而是在查答案。它先通过搜索找到真实、权威的教辅题源，再用大模型把解析过程总结提炼出来。并且，每个答案都标注了来源，用户可以直接查看出处，甚至进行多题源交叉验证。这种基于检索增强生成的机制，加上权威知识体系的护城河，使得答案具备更高的可验证性。

不盲信，不照搬，客观看待AI辅导工具

经历了这次实测，我也意识到了工具是辅助，思考才是核心。

现在百度的产品体验在细节上确实有提升，但我们在使用任何AI工具时，都应保持辩证的态度。遇到难题时，可以对比多个工具的解答，优先选择逻辑清晰、有权威来源支撑的结果。拿到解题思路后，务必自己推导一遍。

比如在使用百度时，可以让孩子先看懂解析，有不懂的步骤去问问文心老师，最后再让他用自己的话把思路讲一遍。这样既省时，又能培养扎实的思维。

AI可以帮你更快找到思路，但真正的解题能力来自人的独立思考和验证。在需要权威信源的场景里，百度一下，权威可信，这句老话在AI满天飞的今天，依然有其现实价值