AI高考数学成绩单:国产大模型冲进高分段
这两年,大模型评测看得太多了。各种榜单、各种 benchmark、各种综合排名,大家多少都有点审美疲劳。但最近网上流传的这张AI 高考数学成绩单我觉得还挺值得单独拿出来看一眼。
这张榜单释放出了两个信号。
第一个信号:顶级大模型的数学推理能力,已经开始触碰标准化考试的天花板。
满分 150 分,GPT-5.5 、DeepSeek_v4拿到144,Gemini 和 Opus4.8 都是 142。这个分数放在人类考生里,已经不是普通意义上的“优秀”,而是非常接近极限水平。
第二个信号:国产大模型已经形成了一个相当扎实的高分梯队。
从这张榜单看, Kimi2.6、Unisound U2、GLM5.1、豆包等模型也集中在 130~139 分区间。这个分数段其实很有代表性:它说明国产模型在数学推理、复杂题目理解和解题稳定性上,已经不再只是“能不能做”,而是进入了“能不能做得更稳、更接近头部”的阶段。
我觉得这比单个模型拿高分更值得关注。因为它代表的不是一次偶然的跑分,而是整体能力水位的提升。国产大模型,也正在从“能用”,走向“能打”。
#高考数学 #AI大模型 #国产大模型 #大模型评测 #AI推理 #人工智能
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
福建,32分钟前,
夜雨聆风