AI 预测世界杯,对了也不能说明它厉害

大模型时代的首届世界杯，来了

2026 世界杯今天开赛了。这是 ChatGPT 问世以来第一届完整的世界杯，一个自然而然的问题就是："AI 觉得谁能夺冠"。

问 AI 谁夺冠挺好玩的，我也问了。但问完之后自然会想到下一个问题：它说的这个结果，到底是真有水平，还是恰好蒙对的？

举个具体的例子。假设有个模型告诉你：

"西班牙 vs 法国，西班牙胜 53%，平 27%，负 20%。"

这句话到底有没有水平？比赛踢完了，西班牙确实赢了，能说明这个模型厉害吗？或者说西班牙输了，能说明这个模型不厉害吗？

分辨"真有水平"和"恰好蒙对"这件事，比预测本身的难度可能差不多。

预测一场球只需要一句话，而证明你的预测比瞎猜更好、比博彩公司更准，则需要一整套评测体系。

本文就借世界杯的噱头，把这套评价体系讲清楚。学会了它，你面对任何一个"预测"都能拿出标尺来量一量。

当我们谈预测时，到底在谈什么

聊评测之前，必须先把"预测"这件事定义清楚——因为评测方式完全取决于预测的形态。

三种常见的预测形态

世界杯预测大致分三种，难度递增：

第一种：胜平负（1×2）。 最常见，本质是一个三分类问题。但它不是普通的三分类——胜、平、负之间是有序的，"该赢结果平了"和"该赢结果输了"，错误的严重程度不一样。这个细节会影响后面选什么指标。

第二种：精确比分。 直接预测 2:1 还是 3:0。信息量最大，也最难——你要给两支球队的进球数分别建模。

第三种：晋级和夺冠概率。 不是预测单场，而是贯穿整届赛事的链式概率：小组出线的概率是多少，进八强呢，进四强呢，夺冠呢。每一环都依赖前一环的结果，是一个完整的概率传播链。

这些概率从哪来？

方法论层面，世界杯预测有几个经典套路，一句话串起来就是：Elo 定实力，泊松分布算比分，蒙特卡洛跑出冠军概率。 Elo 把球队实力量化成分数，分差越大赢面越大；泊松模型给进球数建模，算出任意比分的概率；蒙特卡洛则把单场概率喂进真实赛程模拟上万次，统计出每支球队的夺冠频率——你在预测网站上看到的"巴西 18% 夺冠"就是这么来的。

一个关键区分：硬预测 vs 概率预测

这里要敲黑板：

硬预测："西班牙赢。"——一句话赌生死。
概率预测："西班牙 53% 赢。"——不拍板，给每种结果分配一个概率。

只有概率预测才谈得上精细评测。 足球偶然性极高，稍微严肃一点的做法都给概率而不是拍板。连菠菜公司都不说"西班牙一定赢"，它们只算概率、定赔率——因为单场对错不重要，长期平均能不能赚钱才重要。

明确了这些，我们就能开始搭评测体系了。

搭评测体系，你得搞定四件事

下面进入核心。评测一个预测到底好不好，说到底就四件事。我们始终回到那句"西班牙 53%"的例子。

① 时间切分——别让模型偷看未来

评测的第一条铁律：只能用赛前信息，绝不能拿未来数据回头训练。

这在机器学习里叫 walk-forward 验证：预测第 N 轮比赛时，模型只能见过前 N-1 轮的结果。听起来像废话？在实践中这条线极容易被偷偷越过。

而大模型时代，这个坑变得更加隐蔽：比赛结果可能就在大模型的训练数据里。

你问 GPT "2022 世界杯决赛谁赢了"，它答得又快又对——但这不是预测，这是背答案。大模型的训练语料包含了海量的赛事报道、维基百科、论坛讨论，它完全可能"记住"了结果却装作在推理。

这是用大模型做预测评测时最隐蔽的坑：你以为模型在预测，其实模型在默写。严格的时间切分就是用来防这个的。

② 基准线——没有对照的准确率就是耍流氓

这件事同样重要：任何指标不和基准线对比都没有意义。

你的模型猜对了 60% 的比赛？很好。但如果"永远押热门"也能猜对 58%，那你的模型只比无脑策略强了 2 个百分点——这点优势放在小样本里可能纯属运气。

世界杯预测领域最强的基准线是菠菜赔率。为什么？因为赔率背后是市场——成千上万人用真金白银投票出来的概率，信息效率极高。

但赔率不能直接拿来比，因为庄家要抽水。一场比赛三个结果的赔率隐含概率加起来不是 100%，通常是 105%~110%——多出来的部分就是庄家的利润。所以需要一步操作叫"去水位"（de-vigging）：把庄家抽水剥掉，把三个概率归一化回 100%，还原出市场认为的"无水"真实概率。

回到我们的例子："西班牙 53%"要和去水后的赔率概率比。如果赔率去水后也给了 55%，那模型其实没赢过市场——你花这么大力气训练出来的东西，还不如去赔率网站上抄一下。

除了赔率，还有两个简单基准线值得设：一是永远押热门（FIFA 排名高的那个），二是按 Elo 评分直接算概率。你的模型至少要稳定地跑赢这三条线，才算真正有增量价值。

③ 评测指标——别看"猜对几场"，要看"概率说得准不准"

有了基准线，下一步就是选指标来打分。

大多数人的第一反应是看准确率——64 场猜对了多少场。但准确率是个会骗人的指标。

回到例子：说"西班牙 53%"和说"西班牙 95%"，如果西班牙确实赢了，准确率算下来一模一样——都算"猜对一场"。但这两句话的水平差了十万八千里。53% 是谨慎但诚实的判断，95% 是盲目自信。反过来，西班牙要是没赢呢？说 53% 的人只是小幅失误，说 95% 的那位就是严重翻车。

准确率区分不了这种差异。我们需要的是能度量"你的概率说得准不准"的指标。

下面三个由浅入深，用天气预报来打比方更好理解：

Brier Score：你的概率有多"实诚"？

想象一个天气 APP，它说"明天 90% 下雨"。如果第二天真下了，它得高分；如果第二天大太阳，它就得低分。注意，它不只判"有没有下雨"，而是判"你说 90% 的那个信心，配不配得上结果"。

Brier Score 干的就是这件事：把你预测的概率和实际发生（1）或没发生（0）之间的差距算一个分数。你的概率越接近真实频率，分越低越好。简单说，它衡量的不是对错，是概率的诚实度。

Brier Score 还有个近亲叫 Log Loss，逻辑类似但更激进——你要是满口"95% 必赢"结果输了，它的惩罚是指数级的。越自信翻车的话后果越严重。

然后是校准度，这个最直觉。

还是那个天气 APP。用了一年，你把它所有说"70% 下雨"的日子挑出来，数一数：这些日子里真正下雨的比例是多少？如果大约也是 70%——恭喜，这个 APP 校准得很好。如果它说 70% 但实际下雨了 95%，说明它系统性地不敢说大话；反过来说 70% 但只下了 30%，说明它一直在吹牛。

画成图就是一条"可靠性曲线"：横轴是模型说的概率，纵轴是实际发生的频率。完美校准的模型，所有点都落在对角线上。你身边那个每次说"差不多七成把握"就真的十次对七次的朋友，就是人肉校准模型——未必每次都对，但他知道自己有多不确定。

最后说 RPS。

这个指标专门为足球这类有序预测设计。

还记得前面说的吗？胜、平、负是有顺序的。你预测"西班牙赢"结果平了，和你预测"西班牙赢"结果输了——这两种错，严重程度不一样。前者差一格，后者差两格。

Brier Score 不管这个，它把这两种错罚得一样重。RPS（Ranked Probability Score，排序概率评分）则更讲道理——偏了一格罚得轻，偏了两格罚得重。在足球预测评测圈，RPS 比 Brier 更受认可，就是因为它尊重了胜平负的顺序关系。

所以，硬预测看准确率（但必须配基准线），概率预测看 Brier/RPS + 校准度。

④ 防泄漏与"留证据"——预测必须冻结

最后一件事：评测要可复现、可验证、防作弊。

这听起来很学术，其实就一句话：预测必须在结果出来之前冻结下来，打上时间戳，事后不能改。

这叫预注册（pre-registration）。

科学界早就在用——临床试验必须在招募病人之前把假设、方法、分析计划全部注册在案，就是为了防止"看到结果再编假设"。

预测也一样。如果模型的预测没有在赛前以某种不可篡改的方式记录下来，那事后你说什么都没用——谁知道你是不是"看到结果之后调了参数再假装一直是这么预测的"？

实操上有几种做法：把预测写进 Git 仓库（每次 commit 都有时间戳和哈希值，不可篡改）、发到社交媒体留时间戳、甚至用区块链存证。

所有的这些核心并不是技术手段，而是一个原则：留下可验证的凭证，比事后任何口头声明都有效。

评测结果该怎么解读

好，四件事讲完了：时间切分防偷看、基准线防自嗨、好指标度量概率质量、预注册防作弊。体系搭完，比赛踢完，评测跑完——然后就能下结论了吗？

一般这种反问的答案都是不能。

原因很简单，一届世界杯的样本量，大概率不够你下结论。

一届世界杯小组赛 48 场，淘汰赛 16 到 32 场，总共 64 到 104 场比赛。听起来不少？在统计学意义上，这个样本量太小了。小到什么程度呢——掷硬币的人都有不低的概率排进预测榜前列。

这就是幸存者偏差在预测领域的经典表现：世界杯结束后一定会有人跳出来说"我猜对了 80% 的比赛"，但你无法分辨他是真有水平还是纯属运气——因为基数够大的时候，总有人恰好蒙对。

所以评测结果不能只看排名，还要看不确定性。一个严谨的评测应该报告不确定性："模型 A 比基准线好了 0.03——但样本只有 64 场，这点领先完全可能是运气。换一届世界杯，排名可能就反过来了。"

样本救不了你，方法才能。正因为样本小，上面四件事才更重要——你没法靠数量堆出结论，只能靠方法的严谨性来提高每一场比赛的信息利用效率。

写在最后

最后留三个问题。下次再看到有人秀"AI 预测"，拿这三个问题去反问他：

没有基准线的准确率，别信。 问他打没打赢"无脑押热门"。
看校准度，别看准确率。 问他"说 70% 的时候是不是真有七成发生"。
不能冻结复现的预测，等于没有。 问他预测是不是赛前就锁定这个结果了。

大模型不是预言家，是推理器。搭好了给世界杯预测打分的体系，你就有了审视任何一个"AI 预测"的标尺。

这套方法不只能用在世界杯上——任何号称"AI 预测"的东西，都可以拿这把尺子量一量。