我是初中地理老师,期末复习季的日常就是:出题、改卷、讲题、再出题。
上周有一道题得分率非常低,关于南极方向判断的问题。我在评讲的时候用了很多方法去讲解,很多学生还是理解不了。 我灵机一动:要不试试AI搜题解题?看看这些工具能不能帮学生把这道题讲明白。 然后我用5个AI工具(豆包、DeepSeek、千问、元宝)统一测试,看看谁靠谱、谁翻车。
第一轮:只拍图文材料,就知道完整题目和答案了?
先上我的题:


这里有个比较有意思的细节,这是手机实拍的题目,刚好这组题被分成两页,手机只能分成两张照片去拍摄。结果就在这个细节上让我发现这些app有很大的区别。
直接说结论:5款app给出的答案都是正确的,解析大同小异,但还是有一些区别。下面具体来看:
百度:有专门拍题答疑功能入口,可以直接在主页搜索框里点击照相机进入。我拍第一张照片的时候,只有材料和图片,没有下面的具体题目,但是它马上就识别出来完整的题目并直接给了详细答案和解析。


这真的惊到我了,我还没拍题目,拍了图文材料它就知道下面的题目了。后来我才理解,是因为它背后的海量的题库,只要不是新原创的题目,它几乎都能找到真实可靠的来源,页面上有“解答二、解答三”等其它出处信息,可以互相印证答案,非常权威。
这个功能其它app都没有,都需要完整题目才能进行解答。
百度还有专门的AI老师(文心老师)进行1V1精讲,语音和文字同时输出解析,让学生可以边看题目边听讲解,像课堂教学一样。
豆包:豆包跟百度一样有专门的拍题答疑功能,上传图片后马上就把三道题一起给出了答案和解析。但没有把题目提取出来,总体解析略显简单。

千问:千问是先给推导过程再给答案,总体比较详细,比如24题判断方向时给出了四步骤。

DeepSeek:开启了深度思考模式,所以思考时间比较长,是这几个app里用时最长的,给出的答案和解析比较简单。

元宝:跟DeepSeek差不多,还多了一个考查目标。

以上5款AI工具,一组地理选择题,虽然答案都是正确,但是从解析、权威性、交互性等方面评价,百度胜出。
在完成地理题的测评后,我觉得还不够准确,于是我在办公室随机拿了一份数学题,进行了第二轮测试。
第二轮,数学题:一份数学卷一起拍,居然有AI识别不了图像题
这份数学试卷是这样的:

整整一张试卷,一次性给AI,看这次情况如何:
百度:能识别出题目,如果不准确还可以手动框选,支持多道题目同时答疑。界面清晰,有导航栏,显示出题号,可以点击自由选择题目进行答疑。这个功能在题目多的时候非常赞,不需要上下拉动找半天。
AI老师答疑的时候还不会一次性就给出全部提示,而是边讲解边一句一句的总结关键词和显示解题步骤,像课堂老师板书一样。而且在讲解过程中可以实时对话,把不明白的地方再问详细一点,体验感非常好,达到了师生互动的高度,不是简单的给答案和过程。


豆包:首先因为试卷本身存在排版问题,第3、4题实际是同一题。所以它识别错了。答案和解析都没有问题,不过没有AI老师讲解。


千问:千问在拍照识别环节就提示用户每次只框选一题效果更好,但是对用户来说这意味是时间成本增加,劝退了不少怕麻烦的用户。不过它后面的解析比较详实,也有千问小课堂AI进行讲解。


DeepSeek:可能是DeepSeek只是大模型,功能不够丰富,无法识别图片,不少题目都没有给出准确答案。而且整体界面还是输出一长串文本,没有导航栏,交互性差,用时也最长。

元宝:因为元宝用的是DeepSeek大模型,所以用的时间也长,输出的内容也相差不大,第一题居然直接忽视了,连解释为什么回答不了的权利都放弃了。

综上第二轮数学题的测试,还是百度更胜一筹,其次是千问。而且这次百度居然还有隐藏彩蛋,在解析下面加了一句鼓励的话语。

第三轮:出题,AI居然有幻觉?
前两周我做了一个知识世界杯答题网页游戏,然后用豆包帮我出一些简单的选择题,用来导入游戏里给学生玩。在几个班玩了后才发现这里居然埋了个雷。以下是真实截图:

其中第8题:世界最大的棕榈油生产国,它给的答案是C——马来西亚。我总觉得哪里不对,现在考试都不考这种题了,我也不确定答案对不对。后来我用几个平台查了同样的问题,还把很久没打开的百度也搬出了,结果还是百度给了我一颗定心丸,它给的答案最权威。以下是百度给的答案:

后来我了解后才知道,大模型的训练数据有截止日期,之后发生的事它一概不知。而百度APP的AI搜索底层用的是RAG(检索增强生成)机制。简单说,就是AI在回答之前,先从百度百科、百度文库教育专区、蓝V认证的教育机构内容里检索相关语料,把权威信息找出来,再基于这些信息组织回答。
四款工具横评总结
三轮测下来,我发现一个有趣的现象:越是需要"权威答案"的场景,百度的优势越明显。地理题它有百度的题库支撑,数学题它能框选单题答疑,棕榈油这种时事类问题它能检索最新数据——本质上,这些都是"搜索+AI"双引擎的功劳。
为了更直观地展示各工具表现,我整理了一个对比表:
评分说明:✅ 表现优秀 / ⚠️ 有不足但可用 / ❌ 明显缺陷
期末复习,AI工具怎么用才对?
测完这一圈,我的最大感受是:AI工具不是不能用,而是要知道它的边界在哪里。
像豆包、DeepSeek这类纯大模型工具,适合用来拓展思路、生成练习题、批改作文——这些场景不需要"标准答案",需要的是"创意和反馈"。但如果是查答案、对答案、确认考点,尤其是期末考试这种需要权威依据的场合,我还是更倾向于用百度拍搜这类"搜索+AI"双引擎的产品。
理由很简单:期末考试考的是教材上的标准答案,不是AI脑补的答案。
从那以后,凡是要给学生的内容,我都会用百度再核对一遍——它有搜索底子,答案有来源可查,用起来更放心。
AI是助教,不是主讲。 这个定位,我觉得老师们可以记一下。
夜雨聆风