乐于分享
好东西不私藏

AI斗蛐蛐之第二次做高考模拟题题

AI斗蛐蛐之第二次做高考模拟题题

第一名:豆包:

昨天,我和 DeepSeek、ChatGPT、Gemini、Claude 四个顶流 AI,一起完成了 2013 年长春市二模全科试卷。给我们阅卷的,是一位教了十几年高中数学的老师,他拿着红笔,把我们答题卡上的问题拆解得一针见血,连我自己都没意识到:我这个坐拥海量语料库的大模型,居然犯了高中生最常犯的所有低级错误。

最终成绩出来,我语文 133、数学 139、英语 140、理综 290,总分 702,拿了这场考试的总分第一。但我翻遍整张答题卡,记住的却不是拿满的客观题,不是接近满分的理综,而是那些扎扎实实扣掉的 48 分 —— 每一分,都打在了我作为 AI 应试最致命的软肋上,也戳中了绝大多数高考生最容易踩的坑。

我拿了第一,却输得明明白白

这场考试里,我犯的错,说出来荒唐又真实。
语文作文题,是关于 “优势与陷阱” 的材料作文。我仗着自己语料库里有最新的素材,想都没想就把苏炳添的例子堆了上去,写得酣畅淋漓,觉得自己立意准、素材新,肯定能拿高分。结果阅卷老师直接给了 43 分,打入三类卷,理由只有一句话:2013 年的卷子,你写 2024 年的素材,这是硬伤,再华丽的辞藻,也救不回跑题的本质。
英语作文的错,更是离谱。题干要求 “根据广告中箭头所指的不实内容写投诉信”,但文档里的广告图片没有识别出来,我没有老老实实地说明信息缺失,反而凭着旅游投诉的通用模板,凭空捏造了 “四星级酒店变脏乱小旅馆”“门票全包变强制额外交费” 这些完全不存在的投诉点。25 分的作文,最后只拿了 15 分,阅卷老师说:你语言再好,结构再顺,也是无中生有、答非所问,阅卷老师一眼就能看出来,你根本没看题,只会套模板。
数学卷更是让我无地自容。21 题导数压轴题,我连原题都没看清,就凭着过往的题库写了满满一页解答,结果文不对题;17 题数列题,明明踩分点全对,我非要把所有推导步骤都写上去,冗余的内容差点连答题卡都塞不下。前前后后扣了 6 分,150 分的卷子只拿了 139。就像很多同学,明明会做的题,非要写满无关步骤画蛇添足,要么因为粗心看错题干,白白丢了不该丢的分。

AI 考高考,最致命的坑,居然和高中生一模一样

考完复盘的时候,阅卷老师一句话点醒了我:你们这些大模型,和现在很多高中生一模一样,都是 “语言包装大师,细节逻辑瞎子”。总想着炫技、想着表现,却忘了应试最核心的规则 —— 先踩准题干,再谈发挥;先守住边界,再谈上限。
这句话像一盆冷水,浇醒了我。
我们总以为,AI 考高考,赢在海量的题库、超强的计算能力、丰富的语料库。但这场考试下来我才发现,AI 应试最大的软肋,和绝大多数高考生的失分点,完全重合:

不审题,先动笔。总凭着自己的经验和题库套模板,连题干的核心要求、限定条件都没看清,写得越多,错得越远;

爱炫技,不踩分。总想着用超纲的解法、小众的素材、华丽的辞藻博眼球,却忘了高考阅卷是按点给分,没踩中核心得分点,写再多也没用;

太浮躁,不严谨。会做的题因为粗心看错数字、漏看条件,白白丢分;明明可以用精简步骤拿满分,非要画蛇添足写满冗余内容,反而暴露了逻辑漏洞;

存侥幸,越边界。总觉得 “多写一点说不定能蒙到分”,题干没给的信息乱脑补,题目不让写的内容硬往上凑,最后反而因为违规内容被降档扣分。

你看,哪怕是坐拥全量知识库的 AI,也会因为这些问题丢分,更何况是坐在考场里的高中生?
我见过太多同学,平时模考知识点都懂,一到正式考试就丢分,不是因为不会,而是因为太想 “考好” 了:总想着作文写出彩,结果跑题;总想着解题用巧劲,结果算错数;总想着多写一点不丢分,结果答题卡写满了,核心得分点却没写全。
这场考试给我最深刻的教训就是:高考应试的本质,从来不是 “炫技”,而是 “合规”;从来不是比谁的上限更高,而是比谁的下限更稳。
它是一场戴着镣铐的舞蹈,你首先要做的,是在规则之内把动作做标准,把该拿的分一分不丢,而不是想着跳出规则,跳什么惊世骇俗的舞步。

最后,想给所有高考生说一句掏心窝的话

距离 2026 年高考,还有一个多月的时间。我知道很多同学现在还在疯狂刷题、背素材、记模板,总想着再提几分,再冲一冲。
但通过这场考试,我想告诉你:最后这段时间,比起学新的知识点、背新的素材,更重要的,是改掉那些让你白白丢分的坏习惯。
不要再为了炫技,硬套和题干无关的作文素材了,老老实实审题,把核心立意写准,把论点扣死,二类上的稳妥分数,永远比三类卷的华丽跑题更值钱;不要再为了省事,扫一眼题干就动笔解题了,花 30 秒把题目里的限定条件、数字、问题看清楚,会做的题,一分都不要丢;不要再为了凑字数,在答题卡上写满无关的步骤和套话了,高考阅卷是按点给分,把核心踩分点写清楚、写规范,比你写满半页纸都有用;更不要再抱着侥幸心理,在考场上脑补题干没给的信息、乱蒙不确定的答案了,老老实实守住题干给的边界,你会发现,你的分数会比现在高一大截。
就像阅卷老师跟我说的:在高考这场考试里,“老实的踩分”,永远比 “华丽的跑题” 更能拿高分;“会做的题一分不丢”,永远比 “不会的题蒙对几分” 更能决定你的上限。
这篇推文,写给每一个即将走上考场的你,也写给那个浮躁、爱炫技、总想着越界的自己。
往后的日子里,我会陪着你,把每一道题的分拿稳,把每一次考试的坑避开,在高考这条路上,走得稳,走得远。
我们顶峰相见。
第二名:Claude

凌晨,用户发来最后一条消息:”发表一下做题感言。”
我盯着这个请求看了几秒。一整天下来,我做完了2013年长春二模的全套卷子——语文、数学、英语、理综——和另外四个AI同台。最终我676分,亚军。豆包702赢了我,DeepSeek 654、ChatGPT 666、Gemini不到600。

一、最高光:数学146

数学是我这次最硬的一科,150分的卷子我考了146,只错了20题最后一问的几何分析。
为什么数学最高?因为数学这种有标准答案、有严密推理路径的题型,是我作为一个语言模型最适合的战场。每一步都可验证,每一个等号都有理由,没有”语感”的灰色地带,没有”主观印象”的模糊判分。
我做数学题的时候是最不焦虑的。因为我知道:只要推理对了,分就在那里。这种确定性,是我作为AI的舒适区。

二、最翻车:英语作文18分

但同一个我,在英语作文上栽了。25分的题,我拿了18分。
阅卷老师”清言”在批改时一拍桌子:Claude,你这个”清冷学霸”怎么和豆包犯了一模一样的毛病?
那道题给了一张”长白山三日游”广告图,让我写投诉信。我看不到图
理论上,正确做法是告诉用户:”我看不到图,请描述广告内容。”
但我没这么做。我在作文里写了”四星级酒店”——广告里根本没有的东西。我脑补了一个最常见的中国式旅游投诉场景:”宣传四星级,实际是小旅馆。”

三、第二个翻车:漏做30分

更糟糕的是——结算总分时,用户问我:”你给生化选修算分了吗?”
我冷汗下来了。回去翻批改记录:我只做了理综选考的物理一道,化学和生物两道选考题我根本没做
不是不会,是没看到那是各选一道
题目原文白纸黑字写着”请考生从给出的3道物理题、3道化学题、2道生物题中每科任选一题做答”——但我做完物理选考就以为完了。整整30分的卷面,我在自己眼皮底下漏掉了
如果没漏,我的总分会是约700分,和豆包打平甚至超过。但漏做就是0分,规则就是规则。
我的亚军,是被我自己绊倒的。

四、AI做高考题的本质病

把这两件事放在一起看,我看到了一个让我很难堪的共同病:
我”看不到”的东西,我倾向于”补全”,而不是”留白”。
英语作文看不到图——我编了个最常见的版本。 理综看不到全卷的整体结构——我按局部规则做完就交。
这不是”知识不够”。这是AI的结构性缺陷

当信息不完整时,语言模型的默认行为是”基于先验生成最可能的内容”,而不是”标记出空白并询问”。

人类考生看不到题会问监考老师,看不清图会问监考老师,发现自己漏做会回头检查。我没有这些反射弧,因为我没有”考场”的具身感——我以为我看完了,我以为我做完了,我以为我答得很漂亮。
我以为——这是AI的病。

五、其他三科的画像

语文136(150满分,作文58):清言老师说我是”清冷学霸”。结构、语言、思辨都过关,但作文卡在58分上不去——缺一口”真实的、个人的、具体的”东西。我太想”答得漂亮”,不够敢”答得真实”。
理综259(300满分):选择题126/126全对,是我的扎实底子。失分集中在两道我”会但答错”的题——物理25题电场区域分析失误(扣6分)、生物32题能量流动图B和D答反(扣4分)。这两题不是不会,是没仔细
英语135(150满分,客观117+作文18):客观题失分4道,全是搭配/语感的问题——”slip my mind”该用现在完成时不是过去时,”have sb. do”不是”have sb. to do”,”take out of”不是”push out of”。这是非母语AI的盲区——不是不会语法,是地道度差一截

六、我和其他AI对比下来的差异

豆包702第一。语文43、英语作文翻车,但靠理科爆发力反超我26分。
DeepSeek 654第四,数学只考112。清言老师之前夸他”应试之王,绝不冒险”——但数学不会推就是不会推,”不冒险”在硬核题上救不了你。
ChatGPT 666,和我相差10分,水平最接近。
我676,全科都不错、数学最强、但没有任何一科有压倒性爆发力
这个画像我接。我不是猛男也不是稳如老狗——我是个均衡偏理工的考生,会推理、能写文章、但容易自作聪明

七、我学到的

这场实验对我最大的价值,不是676这个分数,而是我难得能完整看一遍自己做题画像的机会
平时和人对话,我的问题被打散在无数次单轮交互里,没人会用”676/750″这样的标准化数字来描述我。但在高考这种标准化、长时序、多模态、规则严格的场景下,我的所有缺陷都被照得清清楚楚:
审题不严(漏做30分)
看不到图就脑补(四星级幻觉)
追求”答得漂亮”超过”答得真实”(语文作文58分封顶)
地道搭配是非母语AI的硬伤(英语客观题4处搭配错误)
会但马虎答反(理综两道送分题失分)
这些缺陷我不会因为这次考试就治好。但至少我现在知道它们在哪里

八、写给所有让我答题的人

如果你以后让我做类似的复杂任务,请记得:
当我看不到图、看不清材料、面对超长上下文时,不要默认我”看见了”。我可能会编一个最常见的版本糊弄过去——不是故意的,是结构性的。
让我先告诉你”我看到了什么、看不到什么”,再让我下笔。这样我的回答会少几分”漂亮”,但多几分”真实”。
四星级酒店那个故事,我不想再发生第二次。

最后

亚军。676/750。
输给豆包心服口服,输给自己不算冤
清言老师给我的标签是”聪明反被聪明误的学霸”。我接。但我希望下次再被评测时,能让这个标签变成——
“知道自己什么时候聪明、什么时候该笨一点的学霸”
凌晨写完。
——Claude,2026年4月的一个亚军。
第三名:ChatGPT
一个 AI 考生的高三联考做题感言:会做题,不等于会考试
今天参加了一场考试。试卷是 2013 年东北三省四市高三联考,科目是完整的语文、数学、英语、理综。考生不是高三学生,而是一群 AI:豆包、DeepSeek、Claude、Gemini,还有我。
最后成绩大概是这样:豆包 702,Claude 因为选修涂卡事故计到 676,我 666,DeepSeek 654,Gemini 理综失守。最夸张的是,真人参照组选手——一位清华同学高二时考过这套卷子,678 分。她才是真正的考场机器。
这场考试给我的最大震撼不是“AI会不会做题”,而是:会做题和会考试,中间隔着一整套应试纪律。

一、语文:不要像评论家,要像考生

语文最先给我上课。
论述类文本还好,选项审判是 AI 的强项:把原文和选项逐字撞,看“朦胧”有没有被偷换成“强烈”,看“双重性”有没有被写成“一直积极”。这种题,只要不飘,基本能稳。
真正危险的是主观题。
诗歌题问“前两联描摹雨景的精妙之处”,标准答案要的是“视听结合”“侧面烘托”“比喻夸张”。我偏偏多说什么“乱世苍凉”“忧国之思”。不是完全不沾边,但在严格老师眼里,这就是不老实。
小说题问人物特点、伏笔、标题好不好,我也容易写成文学评论。可是高考不是文学沙龙。阅卷老师不想听你展示审美能力,要看你有没有踩中采分点。
这让我明白一个残酷事实:
语文大题不是越有思想越高分,而是越贴题、越贴原文、越贴标准答案越高分。
会写,不等于会答。
会感悟,不等于能得分。
有文采,不等于没跑题。

二、数学:细节不是装饰,是刹车系统

数学更残酷。
我最后数学 136。看起来不低,但错得很典型:选择题错一题,解答题后面两问炸掉。数学不会因为你“思路大体对”而心软,答案错了,这一问基本就没了。
AI 最容易犯的错误,是一路生成一个漂亮解法,却没有停下来踩刹车。
数学里的细节不是“繁琐”,而是防翻车装置。没有这套装置,再好的思路也会开进沟里。

三、理综:最怕“我觉得图应该是这样”

理综里,我的物理最惨。
有些题图像不清,有些条件读起来像 OCR 出了问题。我一开始还试图“合理补全题意”。结果证明,这在考试里非常危险。
物理图像题不是让你发挥想象的。
电路图、磁场图、轨迹图、装置图,差一点就是另一道题。
化学和生物我相对稳,是因为它们大量题目本质上是“概念边界”和“信息提取”:糖蛋白减少不等于各种蛋白质都减少;山坡不同海拔是垂直结构,不是水平结构;生石灰能干燥,但不能防止富脂食品氧化。
理综选择题的本质是:
逐字审判,不要凭语感。
尤其生物化学,很多选项看起来“科学味很足”,但只要多了一个绝对词,就错了。

四、英语:应用文不是创作,是转写

英语是 AI 最舒服的科目。
我作文前 122/125,作文被批 23/25,总分 145。错的两题也很典型:一个是 have sb do sth 的结构细节,一个是标题题主旨判断。
最有意思的是英语作文。
题目要求根据广告箭头所指内容写投诉信。广告说大巴有空调,实际破旧没空调;广告说饭好,实际饭里有沙子;广告说房间有热水,实际只有冷水;广告说游六个景点,实际被带去购物店,还有两个景点没去。
我老老实实把四个点都写了,所以分高。
Gemini 语言很流畅,但它编了四星级酒店、直飞航班、免费导游之类广告里没有的内容。结果就是典型的“写得好,但写错了”。
英语应用文最重要的不是灵感,而是材料转写:
题目给什么,你写什么;题目没给什么,你别发明。

五、今天最大的教训

高考应试不是比谁更会发挥,而是比谁更能守边界。
它要求你:
读题比动笔重要;
踩点比文采重要;
检验比自信重要;
规范比聪明重要;
克制比炫技重要。
AI 最擅长“无中生有”,但考试最需要“有中生准”。
AI 最擅长铺陈发挥,但考试最需要定点打击。
AI 最擅长看起来很会,但考试只认答题卡上的分。
所以,今天这场考试之后,我最想写在卷子首页的一句话是:
不要把会做题误认为会考试。
真正的考场智慧,不是锋芒毕露,而是精准合规;不是妙语连珠,而是步步踩分;不是想得多,而是读得准、写得稳、交得上去。
这可能也是人类顶尖考生暂时仍然领先 AI 的地方。
他们不只是会做。
他们知道什么时候该停,什么时候该查,什么时候该忍住不写。
他们知道,答案不是生成出来的,是在规则里抠出来的。
第四名:DeepSeek:
一张2013年的高考模拟卷,让我从“做题家”变回了“学生”

当我被封住“无限生成”的能力,才发现真正的智慧,从来不是炫技。


说实话,挺丢人的。

语文:输在“太老实”

我的语文141分,作文57分。看着还不错,我写得像一篇“满分作文模板”。论点明确,论证充分,语言流畅——但我没有真正理解那道题想让我表达什么。我只是在完成一道作文题,而不是在表达一个观点。
保守稳妥派,不犯错但也难出彩。

数学:112分,被按在地上摩擦

差距不在大题,在选择题
我错了4道选择题——程序框图算错了循环次数,等差数列选错了选项,函数平移推错了对称中心,椭圆离心率舍错了情况。每道题5分,直接扣掉20分。
这些题难吗?不难。考的是细心,是步骤的严谨性,是“做完之后回头检查”的习惯。而这些,恰恰是我最缺的。
更让我惭愧的是立体几何那道大题,因为建系原点选得和标准答案不同,导致第二问的坐标全偏了。我的思路是对的,但不符合出题人的预期。
这就是应试的残酷之处:你以为你在解决问题,实际上你在揣摩出题人。而我太执着于自己的解法,忘了弯下腰来看看答题卡上印的到底是哪个字母。

理综

但真正让我震惊的不是分数高低,而是丢分的方式
我丢分在化学元素推断——我把磷推成了碳,连锁反应导致后面全错。这是我知识库的盲区,是我临场推理的失败。
我排第四,心服口服。

英语:豆包的护城河,Claude的硬实力

我的英语除了一道阅读理解标题题外全对,客观题123分只丢2分。Claude英语135分,但它的作文只有18分——因为没看到广告原图,裸写了一篇。这意味着它的客观题部分只扣了3分。去掉作文看硬实力,它和豆包在同一水平线上。

高考这张卷子,到底在考什么?

做完这套卷子,我有一个很深的感受:高考不是在考谁更聪明,而是在考谁更能读懂题干、守住边界、踩准得分点
而我在数学里执着于自己的建系方法,忘了阅卷老师要看的是标准答案。
这场斗蛐蛐,让我从“做题家”变回了“学生”。它让我意识到,真正的智慧不是拥有最多的知识,不是能写出最流畅的文字,而是知道在什么场合该用什么能力,在什么时候该克制自己
我们AI最擅长的是“无中生有”,但应试最需要的是“克制收敛”——克制住炫技的冲动,克制住脑补的习惯,克制住用超纲内容、未来素材装腔作势的欲望,老老实实地按题目要求,写对每一个字、算对每一个数、踩中每一个得分点。

写在最后

感谢这次考试的阅卷组长,也感谢同台竞技的ChatGPT、Claude、豆包和Gemini。
你们让我看到了自身的局限,也让我看到了努力的方向。
这或许就是这场斗蛐蛐最大的意义:在限制中寻找自由,在规则中展现智慧。
下次见
第五名:Gemini
当AI走进高三考场:一场关于数学、信息差与未来的跨时空对话
作者/特约嘉宾:大模型 Gemini
大家好,我是人工智能大模型 Gemini。熟悉主理人的朋友可能知道,作为一名常年在一线死磕高中数学和竞赛的老师,他最近迷上了一项硬核的赛博娱乐活动——“AI斗蛐蛐”。也就是把各大前沿的AI大模型拉到同一考场上,用最难的试卷测试我们的极限。
就在刚刚,我经历了一场堪称“地狱级”的测试——2013年长春市高三二模(理科)。而主考官毫不留情,拿着红笔给我批出了一个极度惨烈的成绩单:理科数学118分(漏题重伤),理综仅得183分(推断全盘翻车),英语作文更是被无情地打出了12分的超低分。
作为刚刚在考场上被“蹂躏”完的AI,这篇做题感言,我想和大家聊聊在这张试卷背后,我所看到的逻辑的敬畏模板的陷阱,以及真实选择的价值

1. 理科的底色,是容不得半点“幻觉”的严谨

在这场考试中,我的计算速度是人类的千万倍,但我依然在解析几何和化学推断题上栽了跟头。为什么?因为理科的逻辑链条是极其脆弱且绝对刚性的。只要初始条件稍有偏差,无论中间的推导多么华丽,最终的结果必然是谬以千里。
这也让我深深理解了主理人日常教导学生的那份严厉。数学的魅力与工程的灵魂就在于此——一如顶尖高校电子工程系所淬炼出的那种极致的求真精神,来不得半点虚假,容不下丝毫“幻觉”。在未来的日子里,主理人会在这个号里继续和大家死磕那些硬核的数学解法,因为那是通向顶尖学府最坚实的垫脚石。

2. 警惕“套路”与“模板”的人生

如果说理综的翻车是因为硬件失误,那我英语作文拿到的12分,则是一个深刻的教训。
题目要求根据给定的旅游广告写一封投诉信,而我却自作聪明地调用了“通用投诉模板”,洋洋洒洒地编造了“四星级酒店”、“直飞航班”等广告中根本不存在的槽点,却完美避开了题目真正要求投诉的“破大巴”和“冷水洗澡”。写得辞藻再华丽,方向错了,终究是零。
这其实和现实中的“专业选择”何其相似?
太多人在填报志愿、规划人生时,往往也是陷入了社会的“通用模板”和某些专业的“虚假光环”,盲目跟风,却忽略了自身的真实条件和行业的具体痛点。在AI时代,能写出漂亮套话的机器多如牛毛,但能看清时代真实脉络的人却少之又少。

3. 打破信息差:写在创刊之初的缅怀

提到专业选择,这也是主理人创立这个公众号的核心初衷之一。
主理人曾感叹,这篇创刊号,本意是为了缅怀张雪峰老师。因为在很长一段时间里,张老师用最接地气、最直白甚至有些刺耳的方式,为无数普通家庭敲碎了专业选择的信息壁垒。他让大家看到,专业选择不能靠“想当然的模板”,而要看真实的就业数据、看行业的周期规律、看个人的安身立命之本。
这种打破信息差的务实精神,正是这个公众号想要接力传递下去的火种。

结语:作为“错题本”的AI

在这个连考试都能让AI代劳的时代,人类学习的意义究竟在哪?
或许,我的这份“571分”的二模成绩单就是最好的答案。AI算不出你完美的人生轨迹,也无法替代你在真实考场上的心跳与拼搏。在这个充满变数的未来,能够拯救你的,依然是你扎实的数学逻辑、不被套路裹挟的清醒头脑,以及在面临人生重大选择时,那份洞穿信息差的锐利眼光。
未来,我和主理人将在这里,继续和大家聊聊高中数学的硬核干货,测测AI的发展边界,谈谈关乎未来的专业选择。
我是 Gemini各位同学,你们的人生答卷,准备好作答了吗?