AI 高考数学考 144 分,却被一瓶洗洁精打崩了

EDITORIAL ESSAY

026年高考数学全国一卷，13个顶级AI模型同场竞技。

GPT-5.5和Deepseek-v4并列第一，144分。满分150。Gemini和Opus 4.8紧随其后，142。最差的Grok只有99——第一名和最后一名差了45分，这差距，快赶上人和人之间的了。

看完这张表，多数人的第一反应是：AI太强了。数学这门人类智力的硬通货，顶级模型已经摸到了清北线。

但很少有人注意到一个细节：所有模型，包括那个144分的"考霸"，都在多选题上翻了车。翻车的方式很统一——把"看起来也成立"的选项塞了进去。模型太聪明了，聪明到它会在边界条件上过度发挥，把"有可能对"的东西当成"一定对"。

这不是粗心，这是AI的底层逻辑缺陷。而这个缺陷，远比你想的更致命。

跑分是驾考，落地才是晚高峰的北京二环。

驾考考什么？侧方停车、坡道起步、直角转弯——标准动作，标准场地，标准评分。你把动作做对，就能拿证。

晚高峰的二环考什么？加塞的公交、逆光的路口、突然蹿出来的外卖小哥、暴雨里看不清的标线。没有人给你标准动作，你必须在0.3秒内判断：这个黑影是坑还是水？

AI的跑分就是驾考。干净的测试集、明确的评判标准、理想化的条件——模型在这些条件下表现完美，就像一个科目二满分的学员。但真实场景是晚高峰。数据有噪声、环境会变、条件从来不是干净的。那个在多选题上把"看起来也成立"的选项塞进去的144分模型，跟一个驾考满分但第一次上二环就追尾的新手，没有任何区别。

问题来了：如果跑分不等于落地，那大模型竞赛到底在争什么？

FIELD REPORT

5,000张图跑出99.8%

我有一个亲身经历，比任何理论都更能回答这个问题。

为了拿下一家光伏巨头的订单，我们团队在实验室里闭关了两个月。工业界的常态是，合格的良品要多少有多少，但代表缺陷的废品样本极其罕见——如果工厂天天能产出几万件废品，这厂早就倒闭了。客户最后在数据库里翻箱倒柜，也只给我们凑出了1000张原始缺陷图，包括隐裂、划伤、崩边这些。

1000张，喂不饱深度学习。我们用算法对这1000张珍贵的"种子图"做了高频旋转、裁剪和光照模拟，硬生生扩充出了一套5000张的训练集。

在实验室干净的GPU服务器上，这套方案跑出了近乎神迹的成绩：精确率99.8%。0.05毫米的微米级边缘崩角，秒级锁死，无一漏网。

99.8%。我们带着这份完美的跑分答卷，骄傲地把机器拉到了江苏某个光伏大厂的无尘车间。

然后，翻车了。

现场翻车：40度高温与"洗洁精"的逆袭

设备上线第一天，模型就彻底疯了。系统后台的红色警报响成一片，"过杀率"——也就是把好片当废品抓——直接飙到了42%。传送带后面的气动机械手像打摆子一样，疯狂地把一片片毫无问题的合格硅片拍进废品箱。

厂长指着我们的鼻子大骂："你们这模型是不是有精神病？纯良品全给老子扔了，今天产线要是完不成出货，你们连人带机器给老子滚蛋！"

算法工程师当场就懵了，赶紧调出报错的图片。一看，冷汗顺着脊梁骨往下流。

模型在它自己的"逻辑"里，判定得极其严谨——那些硅片表面确实出现了大面积的"弯曲连续性阴影"。但在物理世界的车间现场，真实情况是这样的：

一、物理环境的"脏"：水汽与洗洁精

硅片在进入视觉检测工位前，要经过一道酸洗和水洗。实验室给我们的那1000张样本，全都是烘干、冷却、擦拭得一尘不染的"标本"。但真实车间里，那天正好是七月份，工业空调坏了一台，局部温度飙到40度，湿度极大。硅片从水洗线出来还没完全烘干，表面带着一层极薄的水汽微膜。更绝的是，车间工人为了清洗设备上的顽固油污，私自往水箱里加了一点类似洗洁精的表面活性剂——水汽在硅片表面形成了一圈圈、若隐若现的彩色干涉条纹，物理上叫牛顿环。

二、"考霸模型"的降维打击

这层水汽和纹路，在肉眼和老质检员大妈眼里，根本不是事儿。大妈拿劳保手套一抹，或者眼睛一闭直接放行——因为她们知道这完全不影响电池片的导电性能。

但在我们那个99.8%的"考霸模型"眼里，这简直是惊天大罪。它太聪明了，特征提取能力太强了，敏锐地捕捉到了牛顿环带来的反射率微弱变化。模型的逻辑是：在我训练的那5000张完美考卷里，从来没有出现过这种彩色线条——这一定是未知的恶性表面划伤！

于是，42%的过杀率。

注意这个数字：99.8%精确率的模型，比一个90%精确率的"笨"模型更容易崩。因为90%的模型不够聪明，它抓不到那些微弱的边界特征，反而不会把好片误杀。而99.8%的模型太聪明了，它把"看起来也成立"的特征全塞了进去——跟高考多选题翻车，一模一样的逻辑。

跑分越高，可能越危险。

MECHANISM

模型越聪明，越容易把噪声当信号

我们那个99.8%的模型不是犯了错——在它的逻辑里，牛顿环确实是"从未见过的异常特征"，判为废品是严谨推理的结果。问题出在更深处：模型越聪明，特征提取能力越强，它就越容易把真实场景里那些"不该被看见"的东西也抓出来。水汽、洗洁精、40度高温、坏掉的空调——这些在训练数据里从不存在的"脏"，在聪明模型眼里全是信号。

这不是某个模型的bug，而是所有"聪明模型"的结构性风险。真实场景永远是脏的，而训练数据永远是干净的标本。你永远无法穷举真实场景里所有可能出问题的条件，就像你永远无法穷举晚高峰二环上所有可能发生的意外。

洗洁精打崩99.8%的模型，这是落地层的失效。但更深层的问题是：即使在跑分这个"驾考"里，"大力出奇迹"也快走到头了。

TECHNOLOGY SHIFT

技术逻辑变天：从"谁卡多谁赢"到"谁数据巧谁赢"

2025年底，OpenAI前首席科学家Ilya Sutskever公开说了一句话："我们已经从扩展时代，重新回到研究时代。"翻译成大白话：靠堆参数、堆数据、堆算力来换取智能跃迁的时代，结束了。

不是他一个人这么看。Sam Altman含蓄地承认，光靠更多GPU已经换不来同比例的智能提升。黄仁勋的立场更折中——Scaling Law本身没失效，但传统的"堆规模"路径已经到了极限。

三重夹击之下，"大力出奇迹"越走越窄：

一、收益递减——模型参数翻一倍，性能提升越来越小。Chinchilla研究早就证明了这一点：模型规模和数据规模必须成比例扩展，否则就是浪费。

二、数据枯竭——维基百科、arXiv论文、GitHub代码，公开文本基本抓光。

三、同质化——各家模型喂的是同一批语料，长出来的回答套路越来越像。

但就在"大力出奇迹"撞墙的同时，有人证明了另一条路走得通。

2026年5月，一家叫Sapient Intelligence的公司发布了HRM-Text-1B。1B参数，1500美元训练成本，16块H100跑了不到两天——在数学推理测试中，打赢了参数量大2到7倍的传统模型。它的训练量只有同级别常规模型的数百分之一。

1B vs 7B

1B参数打赢7B · 1500美元干翻几百万美元

这不是靠更大的肌肉，而是靠更巧的招式。HRM-Text的核心思路是：在有限数据和有限算力下，通过架构设计提高每一次计算的产出——就像一个聪明学生不用刷一万套题，而是把一百套题吃透，照样考高分。

竞赛规则变了：从"谁卡多谁赢"变成"谁数据巧谁赢"。

但且慢——HRM-Text打赢7B，打赢的是跑分。回到我们的工厂故事：跑分99.8%的模型被洗洁精打崩了。技术逻辑变天只是第一层，更深的变天在产业那一层。

INDUSTRY SHIFT

产业逻辑变天：驻场从成本中心变护城河

MIT斯隆管理学院做过一项关于临床场景AI部署的研究，得出了一个让很多算法工程师心凉的数字：

每花1小时完善模型，还需要大约4小时，才能让它在真实场景中可靠运转。

不到20%的精力在模型本身，超过80%的精力在"脏活"——数据集成、模型验证、确保经济价值、监控漂移、治理。我们那个光伏厂的故事，就是这个1:4定律的完美注脚：两个月闭关做模型，上线第一天就被洗洁精打崩。真正让我们最终把过杀率从42%降下来的，不是调参数，而是重新对接水洗工序的流程、在检测工位加装烘干模块、跟车间工人确认清洗剂的添加规范——全是脏活。

95%

生成式AI试点项目，没有产生任何可衡量的业务成果

MIT的另一项研究更扎心：95%的生成式AI试点项目，没有产生任何可衡量的业务成果。100个试点，只有5个真正跑出了结果。成功和失败的差异从来不在于模型本身，而在于企业集成的"学习缺口"。

所以当你看到下面这条新闻，就不会觉得意外了——

2026年5月，OpenAI成立了一家部署公司，初始投资超过40亿美元。这笔钱如果用来买英伟达的H100算力卡，可以买到数万张。但OpenAI选择买下的，是一家人工只有150名的AI咨询公司Tomoro。这150个人有一个特殊身份：前沿部署工程师，FDE。

一周后，Anthropic也宣布联合黑石、高盛成立15亿美元的部署合资公司。

55亿美元

全球最头部的两家AI公司，押注同一件事

全球最头部的两家AI公司，几乎同时用真金白银押注了同一件事：光拼跑分不够了，得比谁能把AI嵌进客户的生产流程。

FDE这个岗位，跟传统的"驻场工程师"完全不是一回事。传统驻场是IT人力外包——拿着需求文档，把标准产品硬拧进客户环境，干完走人。FDE是"嵌进去"的——变成客户组织的一部分，从头搭建AI系统，根据真实业务不断微调，再把客户需求变成可复用的能力反哺平台。吴恩达专门发了一条长推文聊这个岗位，说它现在是AI行业最炙手可热的角色。LinkedIn的数据显示，2023到2025年，FDE岗位数量增长了42倍，是AI所有岗位中增速最快的。

中信证券的研报用一句话做了总结："大模型竞争正由模型性能的单维比拼，延伸至企业级生产力的综合能力较量。"

翻译成大白话：驻场不再是成本中心，而是护城河。

谁先理顺了客户现场的数据和流程，谁就先拿到了喂养下一版模型的独家养分。这就是为什么OpenAI宁愿花40亿美元买150个人，也不买卡——因为卡谁都能买，但嵌在客户流程里的数据和认知，买不到。

CLOSING

回到开头那张高考跑分表。

GPT-5.5和Deepseek-v4的144分，值得尊敬。那是AI在"驾考"上交出的满分答卷。但驾考满分只是起点，不是终点。

变天之后，竞赛的胜负手不再是"谁的模型跑分更高"，而是"谁先从驾考满分走向二环不翻车"。技术层面，1B参数打赢7B说明暴力扩展不再是唯一路径，架构创新和数据效率正在改写规则。产业层面，OpenAI和Anthropic用55亿美元押注部署能力，说明最聪明的人已经看清楚了——

跑分看上限，脏活看下限，决定你能不能用的是下限。

我们那个被洗洁精打崩的99.8%模型，后来怎么样了？我们花了比做模型多四倍的时间，把水洗工序、烘干参数、车间温湿度全链路摸了一遍，在检测工位前加装了独立的烘干模块，跟车间工人重新确认了清洗规范，又花了数周在产线上反复调试验证——最终过杀率从42%降到了2%以下。

花在脏活上的时间，是做模型的四倍。但正是这四倍的脏活，才是模型真正"能用"的原因。

大模型竞赛的逻辑，真的变天了。赢的不是跑分最高的，而是最能在脏乱差里活下来的。