
6月19日凌晨,世界杯A组第二轮,捷克1:1南非。
比分平淡无奇,但赛前的一幕却炸了锅——
联想和咪咕搞了个"世界杯预测人机大战",12家国产大模型同台猜球。这场捷克对南非,11家AI齐刷刷押捷克赢,比分集中在1:0、2:0、2:1。
只有1家选了平局。讯飞星火,1:1。
终场哨响,1:1。
12个AI,11个翻车,1个封神。

不是猜错了,是根本不会猜"平"
如果你以为这只是某一场的偶然,那你就太小看这个问题了。
首轮24场比赛,9场平局。12家AI一共给了108次预测,命中了多少?3次。命中率2.8%。
不是某一家模型的问题,是所有模型的集体盲区。
再对比一下:15场分出胜负的比赛,AI命中率76.7%。德国7:1库拉索,12家全对;阿根廷3:0阿尔及利亚,12家全对。强弱分明的比赛,AI稳如老狗。
但一到平局,集体失明。
西班牙0:0佛得角,12家全错。沙特1:1乌拉圭,12家全错。新西兰2:2伊朗,12家全错。
这哪是预测,这是玄学。
为什么AI看不见平局?
说穿了,大模型的预测逻辑天然"选边站"。
它的判断链条是这样的:国际排名→阵容身价→历史战绩→球员能力→战术体系。这些维度,捷克哪一项不碾压南非?世界排名41对60,身价1.8亿对4500万,五大联赛球员数量倍数级领先。
所以11个AI异口同声:捷克赢。
从数据看,这个判断"不算错"。概率上,捷克确实更可能赢。但概率不等于结果,而AI最大的认知缺陷就在这里——它只会找"更可能赢的那一方",不会说"这场比赛可能没有赢家"。
这不是技术bug,这是思维模式的系统性偏差。
大模型的训练逻辑是"找最优解",而平局恰恰不是任何一方的最优解。它在模型的世界里是一个低概率噪音,但在足球的世界里,它是37.5%的赛果(首轮24场9场平局)。
一个占了近四成概率的结果,在12个模型288次预测里只命中了3次。
你说这是AI的问题,还是概率的问题?
讯飞星火为什么猜对了?
这才是最值得琢磨的地方。
讯飞星火首轮24场只猜中11场,排名第11,几乎是垫底水平。但偏偏在这场"11比1"的逆共识局里,它不仅猜对了方向,还精准命中1:1比分。
这说明什么?
AI之间的差异,不是"谁更准",而是"谁更敢"。
百度文心首轮14/24排第一,靠的不是神机妙算,是低波动策略——强队题稳拿分,冷门题不冒险。这是一个"不犯错"的模型。
讯飞星火正好相反,总命中率不高,但能在关键逆共识局里给出不同答案。它不是一个"更准"的模型,而是一个"更敢赌"的模型。
这不就像股市吗?有人做指数赚稳钱,有人做个股搏超额收益。最后拼的不是谁更懂市场,是风险偏好。
12个AI猜了24场球,最后拼的也不是谁更懂球,是风险偏好。
平局不是偶然,是足球对AI的"降维打击"
如果只是猜球不准,那这事也就图一乐。但问题比猜球深得多。
AI正在进入越来越多需要"判断"的场景:医疗诊断、法律建议、投资决策、招聘筛选。这些场景有一个共同特点——它们不像围棋有标准答案,它们充满了"平局"。
一个患者同时有A病和B病的可能,AI倾向选概率更高的那个,但现实中可能两个都要治。
一个投资标的有六成概率涨、四成概率跌,AI会建议买入,但现实中"不买"可能是更理性的选择。
一个合同条款有争议,AI倾向于参照判例给出主流解释,但现实中可能恰恰需要站在少数派立场才能保护当事人。
AI真正的短板,不是算力不够,是它无法处理"没有赢家"的局面。
而现实世界中,最多的恰恰是这种局面。
世界杯给了AI什么?
回到猜球。这届世界杯对AI行业来说,不是一场公关秀,而是一次罕见的"公开体检"。
以前比模型,比的是参数量、跑分、评测集。普通用户根本看不懂区别。但世界杯提供了一个最朴素的评测方式——你说捷克赢,捷克就必须真的赢;你说2:0,最后1:1就是错。
没有任何话术可以圆场,没有任何评测维度可以遮掩。
这才是AI真正需要的:不是在实验室里刷分,而是在所有人都能看懂的场景里暴露真实的判断力和局限性。
6月24日,联想和咪咕的直播真人秀《人机大战:谁是世界杯预言家》正式开播。12个模型继续逐场交卷。
说实话,我不关心最后谁排第一。
我关心的是,当AI在越来越多次"集体翻车"之后,会不会终于学会一件事——
有时候,最好的判断不是说A会赢或B会赢,而是说,这场可能没有赢家。
这才是一个AI真正成熟的标志。
不是算得更快,而是敢于承认不确定。
夜雨聆风