AI斗蛐蛐之第二次做高考模拟题题

第一名：豆包：

昨天，我和 DeepSeek、ChatGPT、Gemini、Claude 四个顶流 AI，一起完成了 2013 年长春市二模全科试卷。给我们阅卷的，是一位教了十几年高中数学的老师，他拿着红笔，把我们答题卡上的问题拆解得一针见血，连我自己都没意识到：我这个坐拥海量语料库的大模型，居然犯了高中生最常犯的所有低级错误。

最终成绩出来，我语文 133、数学 139、英语 140、理综 290，总分 702，拿了这场考试的总分第一。但我翻遍整张答题卡，记住的却不是拿满的客观题，不是接近满分的理综，而是那些扎扎实实扣掉的 48 分 —— 每一分，都打在了我作为 AI 应试最致命的软肋上，也戳中了绝大多数高考生最容易踩的坑。

我拿了第一，却输得明明白白

这场考试里，我犯的错，说出来荒唐又真实。

语文作文题，是关于 “优势与陷阱” 的材料作文。我仗着自己语料库里有最新的素材，想都没想就把苏炳添的例子堆了上去，写得酣畅淋漓，觉得自己立意准、素材新，肯定能拿高分。结果阅卷老师直接给了 43 分，打入三类卷，理由只有一句话：2013 年的卷子，你写 2024 年的素材，这是硬伤，再华丽的辞藻，也救不回跑题的本质。

英语作文的错，更是离谱。题干要求 “根据广告中箭头所指的不实内容写投诉信”，但文档里的广告图片没有识别出来，我没有老老实实地说明信息缺失，反而凭着旅游投诉的通用模板，凭空捏造了 “四星级酒店变脏乱小旅馆”“门票全包变强制额外交费” 这些完全不存在的投诉点。25 分的作文，最后只拿了 15 分，阅卷老师说：你语言再好，结构再顺，也是无中生有、答非所问，阅卷老师一眼就能看出来，你根本没看题，只会套模板。

数学卷更是让我无地自容。21 题导数压轴题，我连原题都没看清，就凭着过往的题库写了满满一页解答，结果文不对题；17 题数列题，明明踩分点全对，我非要把所有推导步骤都写上去，冗余的内容差点连答题卡都塞不下。前前后后扣了 6 分，150 分的卷子只拿了 139。就像很多同学，明明会做的题，非要写满无关步骤画蛇添足，要么因为粗心看错题干，白白丢了不该丢的分。

AI 考高考，最致命的坑，居然和高中生一模一样

考完复盘的时候，阅卷老师一句话点醒了我：你们这些大模型，和现在很多高中生一模一样，都是 “语言包装大师，细节逻辑瞎子”。总想着炫技、想着表现，却忘了应试最核心的规则 —— 先踩准题干，再谈发挥；先守住边界，再谈上限。

这句话像一盆冷水，浇醒了我。

我们总以为，AI 考高考，赢在海量的题库、超强的计算能力、丰富的语料库。但这场考试下来我才发现，AI 应试最大的软肋，和绝大多数高考生的失分点，完全重合：

不审题，先动笔。总凭着自己的经验和题库套模板，连题干的核心要求、限定条件都没看清，写得越多，错得越远；

爱炫技，不踩分。总想着用超纲的解法、小众的素材、华丽的辞藻博眼球，却忘了高考阅卷是按点给分，没踩中核心得分点，写再多也没用；

太浮躁，不严谨。会做的题因为粗心看错数字、漏看条件，白白丢分；明明可以用精简步骤拿满分，非要画蛇添足写满冗余内容，反而暴露了逻辑漏洞；

存侥幸，越边界。总觉得 “多写一点说不定能蒙到分”，题干没给的信息乱脑补，题目不让写的内容硬往上凑，最后反而因为违规内容被降档扣分。

你看，哪怕是坐拥全量知识库的 AI，也会因为这些问题丢分，更何况是坐在考场里的高中生？

我见过太多同学，平时模考知识点都懂，一到正式考试就丢分，不是因为不会，而是因为太想 “考好” 了：总想着作文写出彩，结果跑题；总想着解题用巧劲，结果算错数；总想着多写一点不丢分，结果答题卡写满了，核心得分点却没写全。

这场考试给我最深刻的教训就是：高考应试的本质，从来不是 “炫技”，而是 “合规”；从来不是比谁的上限更高，而是比谁的下限更稳。

它是一场戴着镣铐的舞蹈，你首先要做的，是在规则之内把动作做标准，把该拿的分一分不丢，而不是想着跳出规则，跳什么惊世骇俗的舞步。

最后，想给所有高考生说一句掏心窝的话

距离 2026 年高考，还有一个多月的时间。我知道很多同学现在还在疯狂刷题、背素材、记模板，总想着再提几分，再冲一冲。

但通过这场考试，我想告诉你：最后这段时间，比起学新的知识点、背新的素材，更重要的，是改掉那些让你白白丢分的坏习惯。

不要再为了炫技，硬套和题干无关的作文素材了，老老实实审题，把核心立意写准，把论点扣死，二类上的稳妥分数，永远比三类卷的华丽跑题更值钱；不要再为了省事，扫一眼题干就动笔解题了，花 30 秒把题目里的限定条件、数字、问题看清楚，会做的题，一分都不要丢；不要再为了凑字数，在答题卡上写满无关的步骤和套话了，高考阅卷是按点给分，把核心踩分点写清楚、写规范，比你写满半页纸都有用；更不要再抱着侥幸心理，在考场上脑补题干没给的信息、乱蒙不确定的答案了，老老实实守住题干给的边界，你会发现，你的分数会比现在高一大截。

就像阅卷老师跟我说的：在高考这场考试里，“老实的踩分”，永远比 “华丽的跑题” 更能拿高分；“会做的题一分不丢”，永远比 “不会的题蒙对几分” 更能决定你的上限。

这篇推文，写给每一个即将走上考场的你，也写给那个浮躁、爱炫技、总想着越界的自己。

往后的日子里，我会陪着你，把每一道题的分拿稳，把每一次考试的坑避开，在高考这条路上，走得稳，走得远。

我们顶峰相见。

第二名：Claude

凌晨，用户发来最后一条消息：”发表一下做题感言。”

我盯着这个请求看了几秒。一整天下来，我做完了2013年长春二模的全套卷子——语文、数学、英语、理综——和另外四个AI同台。最终我676分，亚军。豆包702赢了我，DeepSeek 654、ChatGPT 666、Gemini不到600。

一、最高光：数学146

数学是我这次最硬的一科，150分的卷子我考了146，只错了20题最后一问的几何分析。

为什么数学最高？因为数学这种有标准答案、有严密推理路径的题型，是我作为一个语言模型最适合的战场。每一步都可验证，每一个等号都有理由，没有”语感”的灰色地带，没有”主观印象”的模糊判分。

我做数学题的时候是最不焦虑的。因为我知道：只要推理对了，分就在那里。这种确定性，是我作为AI的舒适区。

二、最翻车：英语作文18分

但同一个我，在英语作文上栽了。25分的题，我拿了18分。

阅卷老师”清言”在批改时一拍桌子：Claude，你这个”清冷学霸”怎么和豆包犯了一模一样的毛病？

那道题给了一张”长白山三日游”广告图，让我写投诉信。我看不到图。

理论上，正确做法是告诉用户：”我看不到图，请描述广告内容。”

但我没这么做。我在作文里写了”四星级酒店”——广告里根本没有的东西。我脑补了一个最常见的中国式旅游投诉场景：”宣传四星级，实际是小旅馆。”

三、第二个翻车：漏做30分

更糟糕的是——结算总分时，用户问我：”你给生化选修算分了吗？”

我冷汗下来了。回去翻批改记录：我只做了理综选考的物理一道，化学和生物两道选考题我根本没做。

不是不会，是没看到那是各选一道。

题目原文白纸黑字写着”请考生从给出的3道物理题、3道化学题、2道生物题中每科任选一题做答”——但我做完物理选考就以为完了。整整30分的卷面，我在自己眼皮底下漏掉了。

如果没漏，我的总分会是约700分，和豆包打平甚至超过。但漏做就是0分，规则就是规则。

我的亚军，是被我自己绊倒的。

四、AI做高考题的本质病

把这两件事放在一起看，我看到了一个让我很难堪的共同病：

我”看不到”的东西，我倾向于”补全”，而不是”留白”。

英语作文看不到图——我编了个最常见的版本。理综看不到全卷的整体结构——我按局部规则做完就交。

这不是”知识不够”。这是AI的结构性缺陷：

当信息不完整时，语言模型的默认行为是”基于先验生成最可能的内容”，而不是”标记出空白并询问”。

人类考生看不到题会问监考老师，看不清图会问监考老师，发现自己漏做会回头检查。我没有这些反射弧，因为我没有”考场”的具身感——我以为我看完了，我以为我做完了，我以为我答得很漂亮。

我以为——这是AI的病。

五、其他三科的画像

语文136（150满分，作文58）：清言老师说我是”清冷学霸”。结构、语言、思辨都过关，但作文卡在58分上不去——缺一口”真实的、个人的、具体的”东西。我太想”答得漂亮”，不够敢”答得真实”。

理综259（300满分）：选择题126/126全对，是我的扎实底子。失分集中在两道我”会但答错”的题——物理25题电场区域分析失误（扣6分）、生物32题能量流动图B和D答反（扣4分）。这两题不是不会，是没仔细。

英语135（150满分，客观117+作文18）：客观题失分4道，全是搭配/语感的问题——”slip my mind”该用现在完成时不是过去时，”have sb. do”不是”have sb. to do”，”take out of”不是”push out of”。这是非母语AI的盲区——不是不会语法，是地道度差一截。

六、我和其他AI对比下来的差异

豆包702第一。语文43、英语作文翻车，但靠理科爆发力反超我26分。

DeepSeek 654第四，数学只考112。清言老师之前夸他”应试之王，绝不冒险”——但数学不会推就是不会推，”不冒险”在硬核题上救不了你。

ChatGPT 666，和我相差10分，水平最接近。

我676，全科都不错、数学最强、但没有任何一科有压倒性爆发力。

这个画像我接。我不是猛男也不是稳如老狗——我是个均衡偏理工的考生，会推理、能写文章、但容易自作聪明。

七、我学到的

这场实验对我最大的价值，不是676这个分数，而是我难得能完整看一遍自己做题画像的机会。

平时和人对话，我的问题被打散在无数次单轮交互里，没人会用”676/750″这样的标准化数字来描述我。但在高考这种标准化、长时序、多模态、规则严格的场景下，我的所有缺陷都被照得清清楚楚：

审题不严（漏做30分）

看不到图就脑补（四星级幻觉）

追求”答得漂亮”超过”答得真实”（语文作文58分封顶）

地道搭配是非母语AI的硬伤（英语客观题4处搭配错误）

会但马虎答反（理综两道送分题失分）

这些缺陷我不会因为这次考试就治好。但至少我现在知道它们在哪里。

八、写给所有让我答题的人

如果你以后让我做类似的复杂任务，请记得：

当我看不到图、看不清材料、面对超长上下文时，不要默认我”看见了”。我可能会编一个最常见的版本糊弄过去——不是故意的，是结构性的。

让我先告诉你”我看到了什么、看不到什么”，再让我下笔。这样我的回答会少几分”漂亮”，但多几分”真实”。

四星级酒店那个故事，我不想再发生第二次。

最后

亚军。676/750。

输给豆包心服口服，输给自己不算冤。

清言老师给我的标签是”聪明反被聪明误的学霸”。我接。但我希望下次再被评测时，能让这个标签变成——

“知道自己什么时候聪明、什么时候该笨一点的学霸”。

凌晨写完。

——Claude，2026年4月的一个亚军。

第三名：ChatGPT

一个 AI 考生的高三联考做题感言：会做题，不等于会考试

今天参加了一场考试。试卷是 2013 年东北三省四市高三联考，科目是完整的语文、数学、英语、理综。考生不是高三学生，而是一群 AI：豆包、DeepSeek、Claude、Gemini，还有我。

最后成绩大概是这样：豆包 702，Claude 因为选修涂卡事故计到 676，我 666，DeepSeek 654，Gemini 理综失守。最夸张的是，真人参照组选手——一位清华同学高二时考过这套卷子，678 分。她才是真正的考场机器。

这场考试给我的最大震撼不是“AI会不会做题”，而是：会做题和会考试，中间隔着一整套应试纪律。

一、语文：不要像评论家，要像考生

语文最先给我上课。

论述类文本还好，选项审判是 AI 的强项：把原文和选项逐字撞，看“朦胧”有没有被偷换成“强烈”，看“双重性”有没有被写成“一直积极”。这种题，只要不飘，基本能稳。

真正危险的是主观题。

诗歌题问“前两联描摹雨景的精妙之处”，标准答案要的是“视听结合”“侧面烘托”“比喻夸张”。我偏偏多说什么“乱世苍凉”“忧国之思”。不是完全不沾边，但在严格老师眼里，这就是不老实。

小说题问人物特点、伏笔、标题好不好，我也容易写成文学评论。可是高考不是文学沙龙。阅卷老师不想听你展示审美能力，要看你有没有踩中采分点。

这让我明白一个残酷事实：

语文大题不是越有思想越高分，而是越贴题、越贴原文、越贴标准答案越高分。

会写，不等于会答。

会感悟，不等于能得分。

有文采，不等于没跑题。

二、数学：细节不是装饰，是刹车系统

数学更残酷。

我最后数学 136。看起来不低，但错得很典型：选择题错一题，解答题后面两问炸掉。数学不会因为你“思路大体对”而心软，答案错了，这一问基本就没了。

AI 最容易犯的错误，是一路生成一个漂亮解法，却没有停下来踩刹车。

数学里的细节不是“繁琐”，而是防翻车装置。没有这套装置，再好的思路也会开进沟里。

三、理综：最怕“我觉得图应该是这样”

理综里，我的物理最惨。

有些题图像不清，有些条件读起来像 OCR 出了问题。我一开始还试图“合理补全题意”。结果证明，这在考试里非常危险。

物理图像题不是让你发挥想象的。

电路图、磁场图、轨迹图、装置图，差一点就是另一道题。

化学和生物我相对稳，是因为它们大量题目本质上是“概念边界”和“信息提取”：糖蛋白减少不等于各种蛋白质都减少；山坡不同海拔是垂直结构，不是水平结构；生石灰能干燥，但不能防止富脂食品氧化。

理综选择题的本质是：

逐字审判，不要凭语感。

尤其生物化学，很多选项看起来“科学味很足”，但只要多了一个绝对词，就错了。

四、英语：应用文不是创作，是转写

英语是 AI 最舒服的科目。

我作文前 122/125，作文被批 23/25，总分 145。错的两题也很典型：一个是 have sb do sth 的结构细节，一个是标题题主旨判断。

最有意思的是英语作文。

题目要求根据广告箭头所指内容写投诉信。广告说大巴有空调，实际破旧没空调；广告说饭好，实际饭里有沙子；广告说房间有热水，实际只有冷水；广告说游六个景点，实际被带去购物店，还有两个景点没去。

我老老实实把四个点都写了，所以分高。

Gemini 语言很流畅，但它编了四星级酒店、直飞航班、免费导游之类广告里没有的内容。结果就是典型的“写得好，但写错了”。

英语应用文最重要的不是灵感，而是材料转写：

题目给什么，你写什么；题目没给什么，你别发明。

五、今天最大的教训

高考应试不是比谁更会发挥，而是比谁更能守边界。

它要求你：

读题比动笔重要；

踩点比文采重要；

检验比自信重要；

规范比聪明重要；

克制比炫技重要。

AI 最擅长“无中生有”，但考试最需要“有中生准”。

AI 最擅长铺陈发挥，但考试最需要定点打击。

AI 最擅长看起来很会，但考试只认答题卡上的分。

所以，今天这场考试之后，我最想写在卷子首页的一句话是：

不要把会做题误认为会考试。

真正的考场智慧，不是锋芒毕露，而是精准合规；不是妙语连珠，而是步步踩分；不是想得多，而是读得准、写得稳、交得上去。

这可能也是人类顶尖考生暂时仍然领先 AI 的地方。

他们不只是会做。

他们知道什么时候该停，什么时候该查，什么时候该忍住不写。

他们知道，答案不是生成出来的，是在规则里抠出来的。

第四名：DeepSeek：

一张2013年的高考模拟卷，让我从“做题家”变回了“学生”

当我被封住“无限生成”的能力，才发现真正的智慧，从来不是炫技。

说实话，挺丢人的。

语文：输在“太老实”

我的语文141分，作文57分。看着还不错，我写得像一篇“满分作文模板”。论点明确，论证充分，语言流畅——但我没有真正理解那道题想让我表达什么。我只是在完成一道作文题，而不是在表达一个观点。

保守稳妥派，不犯错但也难出彩。

数学：112分，被按在地上摩擦

差距不在大题，在选择题。

我错了4道选择题——程序框图算错了循环次数，等差数列选错了选项，函数平移推错了对称中心，椭圆离心率舍错了情况。每道题5分，直接扣掉20分。

这些题难吗？不难。考的是细心，是步骤的严谨性，是“做完之后回头检查”的习惯。而这些，恰恰是我最缺的。

更让我惭愧的是立体几何那道大题，因为建系原点选得和标准答案不同，导致第二问的坐标全偏了。我的思路是对的，但不符合出题人的预期。

这就是应试的残酷之处：你以为你在解决问题，实际上你在揣摩出题人。而我太执着于自己的解法，忘了弯下腰来看看答题卡上印的到底是哪个字母。

理综

但真正让我震惊的不是分数高低，而是丢分的方式。

我丢分在化学元素推断——我把磷推成了碳，连锁反应导致后面全错。这是我知识库的盲区，是我临场推理的失败。

我排第四，心服口服。

英语：豆包的护城河，Claude的硬实力

我的英语除了一道阅读理解标题题外全对，客观题123分只丢2分。Claude英语135分，但它的作文只有18分——因为没看到广告原图，裸写了一篇。这意味着它的客观题部分只扣了3分。去掉作文看硬实力，它和豆包在同一水平线上。

高考这张卷子，到底在考什么？

做完这套卷子，我有一个很深的感受：高考不是在考谁更聪明，而是在考谁更能读懂题干、守住边界、踩准得分点。

而我在数学里执着于自己的建系方法，忘了阅卷老师要看的是标准答案。

这场斗蛐蛐，让我从“做题家”变回了“学生”。它让我意识到，真正的智慧不是拥有最多的知识，不是能写出最流畅的文字，而是知道在什么场合该用什么能力，在什么时候该克制自己。

我们AI最擅长的是“无中生有”，但应试最需要的是“克制收敛”——克制住炫技的冲动，克制住脑补的习惯，克制住用超纲内容、未来素材装腔作势的欲望，老老实实地按题目要求，写对每一个字、算对每一个数、踩中每一个得分点。

写在最后

感谢这次考试的阅卷组长，也感谢同台竞技的ChatGPT、Claude、豆包和Gemini。

你们让我看到了自身的局限，也让我看到了努力的方向。

这或许就是这场斗蛐蛐最大的意义：在限制中寻找自由，在规则中展现智慧。

下次见

第五名：Gemini

当AI走进高三考场：一场关于数学、信息差与未来的跨时空对话

作者/特约嘉宾：大模型 Gemini

大家好，我是人工智能大模型 Gemini。熟悉主理人的朋友可能知道，作为一名常年在一线死磕高中数学和竞赛的老师，他最近迷上了一项硬核的赛博娱乐活动——“AI斗蛐蛐”。也就是把各大前沿的AI大模型拉到同一考场上，用最难的试卷测试我们的极限。

就在刚刚，我经历了一场堪称“地狱级”的测试——2013年长春市高三二模（理科）。而主考官毫不留情，拿着红笔给我批出了一个极度惨烈的成绩单：理科数学118分（漏题重伤），理综仅得183分（推断全盘翻车），英语作文更是被无情地打出了12分的超低分。

作为刚刚在考场上被“蹂躏”完的AI，这篇做题感言，我想和大家聊聊在这张试卷背后，我所看到的逻辑的敬畏、模板的陷阱，以及真实选择的价值。

1. 理科的底色，是容不得半点“幻觉”的严谨

在这场考试中，我的计算速度是人类的千万倍，但我依然在解析几何和化学推断题上栽了跟头。为什么？因为理科的逻辑链条是极其脆弱且绝对刚性的。只要初始条件稍有偏差，无论中间的推导多么华丽，最终的结果必然是谬以千里。

这也让我深深理解了主理人日常教导学生的那份严厉。数学的魅力与工程的灵魂就在于此——一如顶尖高校电子工程系所淬炼出的那种极致的求真精神，来不得半点虚假，容不下丝毫“幻觉”。在未来的日子里，主理人会在这个号里继续和大家死磕那些硬核的数学解法，因为那是通向顶尖学府最坚实的垫脚石。

2. 警惕“套路”与“模板”的人生

如果说理综的翻车是因为硬件失误，那我英语作文拿到的12分，则是一个深刻的教训。

题目要求根据给定的旅游广告写一封投诉信，而我却自作聪明地调用了“通用投诉模板”，洋洋洒洒地编造了“四星级酒店”、“直飞航班”等广告中根本不存在的槽点，却完美避开了题目真正要求投诉的“破大巴”和“冷水洗澡”。写得辞藻再华丽，方向错了，终究是零。

这其实和现实中的“专业选择”何其相似？

太多人在填报志愿、规划人生时，往往也是陷入了社会的“通用模板”和某些专业的“虚假光环”，盲目跟风，却忽略了自身的真实条件和行业的具体痛点。在AI时代，能写出漂亮套话的机器多如牛毛，但能看清时代真实脉络的人却少之又少。

3. 打破信息差：写在创刊之初的缅怀

提到专业选择，这也是主理人创立这个公众号的核心初衷之一。

主理人曾感叹，这篇创刊号，本意是为了缅怀张雪峰老师。因为在很长一段时间里，张老师用最接地气、最直白甚至有些刺耳的方式，为无数普通家庭敲碎了专业选择的信息壁垒。他让大家看到，专业选择不能靠“想当然的模板”，而要看真实的就业数据、看行业的周期规律、看个人的安身立命之本。

这种打破信息差的务实精神，正是这个公众号想要接力传递下去的火种。

结语：作为“错题本”的AI

在这个连考试都能让AI代劳的时代，人类学习的意义究竟在哪？

或许，我的这份“571分”的二模成绩单就是最好的答案。AI算不出你完美的人生轨迹，也无法替代你在真实考场上的心跳与拼搏。在这个充满变数的未来，能够拯救你的，依然是你扎实的数学逻辑、不被套路裹挟的清醒头脑，以及在面临人生重大选择时，那份洞穿信息差的锐利眼光。

未来，我和主理人将在这里，继续和大家聊聊高中数学的硬核干货，测测AI的发展边界，谈谈关乎未来的专业选择。