12个AI集体翻车,只有1个猜对了:世界杯正在给AI上一堂最贵的课

6月19日凌晨，世界杯A组第二轮，捷克1:1南非。

比分平淡无奇，但赛前的一幕却炸了锅——

联想和咪咕搞了个"世界杯预测人机大战"，12家国产大模型同台猜球。这场捷克对南非，11家AI齐刷刷押捷克赢，比分集中在1:0、2:0、2:1。

只有1家选了平局。讯飞星火，1:1。

终场哨响，1:1。

12个AI，11个翻车，1个封神。

不是猜错了，是根本不会猜"平"

如果你以为这只是某一场的偶然，那你就太小看这个问题了。

首轮24场比赛，9场平局。12家AI一共给了108次预测，命中了多少？3次。命中率2.8%。

不是某一家模型的问题，是所有模型的集体盲区。

再对比一下：15场分出胜负的比赛，AI命中率76.7%。德国7:1库拉索，12家全对；阿根廷3:0阿尔及利亚，12家全对。强弱分明的比赛，AI稳如老狗。

但一到平局，集体失明。

西班牙0:0佛得角，12家全错。沙特1:1乌拉圭，12家全错。新西兰2:2伊朗，12家全错。

这哪是预测，这是玄学。

为什么AI看不见平局？

说穿了，大模型的预测逻辑天然"选边站"。

它的判断链条是这样的：国际排名→阵容身价→历史战绩→球员能力→战术体系。这些维度，捷克哪一项不碾压南非？世界排名41对60，身价1.8亿对4500万，五大联赛球员数量倍数级领先。

所以11个AI异口同声：捷克赢。

从数据看，这个判断"不算错"。概率上，捷克确实更可能赢。但概率不等于结果，而AI最大的认知缺陷就在这里——它只会找"更可能赢的那一方"，不会说"这场比赛可能没有赢家"。

这不是技术bug，这是思维模式的系统性偏差。

大模型的训练逻辑是"找最优解"，而平局恰恰不是任何一方的最优解。它在模型的世界里是一个低概率噪音，但在足球的世界里，它是37.5%的赛果（首轮24场9场平局）。

一个占了近四成概率的结果，在12个模型288次预测里只命中了3次。

你说这是AI的问题，还是概率的问题？

讯飞星火为什么猜对了？

这才是最值得琢磨的地方。

讯飞星火首轮24场只猜中11场，排名第11，几乎是垫底水平。但偏偏在这场"11比1"的逆共识局里，它不仅猜对了方向，还精准命中1:1比分。

这说明什么？

AI之间的差异，不是"谁更准"，而是"谁更敢"。

百度文心首轮14/24排第一，靠的不是神机妙算，是低波动策略——强队题稳拿分，冷门题不冒险。这是一个"不犯错"的模型。

讯飞星火正好相反，总命中率不高，但能在关键逆共识局里给出不同答案。它不是一个"更准"的模型，而是一个"更敢赌"的模型。

这不就像股市吗？有人做指数赚稳钱，有人做个股搏超额收益。最后拼的不是谁更懂市场，是风险偏好。

12个AI猜了24场球，最后拼的也不是谁更懂球，是风险偏好。

平局不是偶然，是足球对AI的"降维打击"

如果只是猜球不准，那这事也就图一乐。但问题比猜球深得多。

AI正在进入越来越多需要"判断"的场景：医疗诊断、法律建议、投资决策、招聘筛选。这些场景有一个共同特点——它们不像围棋有标准答案，它们充满了"平局"。

一个患者同时有A病和B病的可能，AI倾向选概率更高的那个，但现实中可能两个都要治。

一个投资标的有六成概率涨、四成概率跌，AI会建议买入，但现实中"不买"可能是更理性的选择。

一个合同条款有争议，AI倾向于参照判例给出主流解释，但现实中可能恰恰需要站在少数派立场才能保护当事人。

AI真正的短板，不是算力不够，是它无法处理"没有赢家"的局面。

而现实世界中，最多的恰恰是这种局面。

记得前面我写的一篇公众号文章盘AI:AI“学霸”齐聚，挑战2025高考超难数学题！17个AI模型只有Coze,ChatGpt,DeepSeek,Gemini,Trae，讯飞星火，这5个AI大模型全部做对，占17个AI考生的33%，说明了各个AI模型投喂的饲料质量（语料和思维模型）不一样带来的结果差异。与这次世界杯比分预测仅讯飞星火胜出也是一个道理，AI领域的所谓的AI算命实质也是一种预测，你能信多少？

世界杯给了AI什么？

回到猜球。这届世界杯对AI行业来说，不是一场公关秀，而是一次罕见的"公开体检"。

以前比模型，比的是参数量、跑分、评测集。普通用户根本看不懂区别。但世界杯提供了一个最朴素的评测方式——你说捷克赢，捷克就必须真的赢；你说2:0，最后1:1就是错。

没有任何话术可以圆场，没有任何评测维度可以遮掩。

这才是AI真正需要的：不是在实验室里刷分，而是在所有人都能看懂的场景里暴露真实的判断力和局限性。

6月24日，联想和咪咕的直播真人秀《人机大战：谁是世界杯预言家》正式开播。12个模型继续逐场交卷。

说实话，我不关心最后谁排第一。

我关心的是，当AI在越来越多次"集体翻车"之后，会不会终于学会一件事——

有时候，最好的判断不是说A会赢或B会赢，而是说，这场可能没有赢家。

这才是一个AI真正成熟的标志。

不是算得更快，而是敢于承认不确定。