大模型时代的首届世界杯,来了
2026 世界杯今天开赛了。这是 ChatGPT 问世以来第一届完整的世界杯,一个自然而然的问题就是:"AI 觉得谁能夺冠"。
问 AI 谁夺冠挺好玩的,我也问了。但问完之后自然会想到下一个问题:它说的这个结果,到底是真有水平,还是恰好蒙对的?
举个具体的例子。假设有个模型告诉你:
"西班牙 vs 法国,西班牙胜 53%,平 27%,负 20%。"
这句话到底有没有水平?比赛踢完了,西班牙确实赢了,能说明这个模型厉害吗?或者说西班牙输了,能说明这个模型不厉害吗?
分辨"真有水平"和"恰好蒙对"这件事,比预测本身的难度可能差不多。
预测一场球只需要一句话,而证明你的预测比瞎猜更好、比博彩公司更准,则需要一整套评测体系。
本文就借世界杯的噱头,把这套评价体系讲清楚。学会了它,你面对任何一个"预测"都能拿出标尺来量一量。
当我们谈预测时,到底在谈什么
聊评测之前,必须先把"预测"这件事定义清楚——因为评测方式完全取决于预测的形态。
三种常见的预测形态
世界杯预测大致分三种,难度递增:
第一种:胜平负(1×2)。 最常见,本质是一个三分类问题。但它不是普通的三分类——胜、平、负之间是有序的,"该赢结果平了"和"该赢结果输了",错误的严重程度不一样。这个细节会影响后面选什么指标。
第二种:精确比分。 直接预测 2:1 还是 3:0。信息量最大,也最难——你要给两支球队的进球数分别建模。
第三种:晋级和夺冠概率。 不是预测单场,而是贯穿整届赛事的链式概率:小组出线的概率是多少,进八强呢,进四强呢,夺冠呢。每一环都依赖前一环的结果,是一个完整的概率传播链。
这些概率从哪来?
方法论层面,世界杯预测有几个经典套路,一句话串起来就是:Elo 定实力,泊松分布算比分,蒙特卡洛跑出冠军概率。 Elo 把球队实力量化成分数,分差越大赢面越大;泊松模型给进球数建模,算出任意比分的概率;蒙特卡洛则把单场概率喂进真实赛程模拟上万次,统计出每支球队的夺冠频率——你在预测网站上看到的"巴西 18% 夺冠"就是这么来的。
一个关键区分:硬预测 vs 概率预测
这里要敲黑板:
硬预测:"西班牙赢。"——一句话赌生死。 概率预测:"西班牙 53% 赢。"——不拍板,给每种结果分配一个概率。
只有概率预测才谈得上精细评测。 足球偶然性极高,稍微严肃一点的做法都给概率而不是拍板。连菠菜公司都不说"西班牙一定赢",它们只算概率、定赔率——因为单场对错不重要,长期平均能不能赚钱才重要。
明确了这些,我们就能开始搭评测体系了。
搭评测体系,你得搞定四件事
下面进入核心。评测一个预测到底好不好,说到底就四件事。我们始终回到那句"西班牙 53%"的例子。
① 时间切分——别让模型偷看未来
评测的第一条铁律:只能用赛前信息,绝不能拿未来数据回头训练。
这在机器学习里叫 walk-forward 验证:预测第 N 轮比赛时,模型只能见过前 N-1 轮的结果。听起来像废话?在实践中这条线极容易被偷偷越过。
而大模型时代,这个坑变得更加隐蔽:比赛结果可能就在大模型的训练数据里。
你问 GPT "2022 世界杯决赛谁赢了",它答得又快又对——但这不是预测,这是背答案。大模型的训练语料包含了海量的赛事报道、维基百科、论坛讨论,它完全可能"记住"了结果却装作在推理。
这是用大模型做预测评测时最隐蔽的坑:你以为模型在预测,其实模型在默写。严格的时间切分就是用来防这个的。
② 基准线——没有对照的准确率就是耍流氓
这件事同样重要:任何指标不和基准线对比都没有意义。
你的模型猜对了 60% 的比赛?很好。但如果"永远押热门"也能猜对 58%,那你的模型只比无脑策略强了 2 个百分点——这点优势放在小样本里可能纯属运气。
世界杯预测领域最强的基准线是菠菜赔率。为什么?因为赔率背后是市场——成千上万人用真金白银投票出来的概率,信息效率极高。
但赔率不能直接拿来比,因为庄家要抽水。一场比赛三个结果的赔率隐含概率加起来不是 100%,通常是 105%~110%——多出来的部分就是庄家的利润。所以需要一步操作叫"去水位"(de-vigging):把庄家抽水剥掉,把三个概率归一化回 100%,还原出市场认为的"无水"真实概率。
回到我们的例子:"西班牙 53%"要和去水后的赔率概率比。如果赔率去水后也给了 55%,那模型其实没赢过市场——你花这么大力气训练出来的东西,还不如去赔率网站上抄一下。
除了赔率,还有两个简单基准线值得设:一是永远押热门(FIFA 排名高的那个),二是按 Elo 评分直接算概率。你的模型至少要稳定地跑赢这三条线,才算真正有增量价值。
③ 评测指标——别看"猜对几场",要看"概率说得准不准"
有了基准线,下一步就是选指标来打分。
大多数人的第一反应是看准确率——64 场猜对了多少场。但准确率是个会骗人的指标。
回到例子:说"西班牙 53%"和说"西班牙 95%",如果西班牙确实赢了,准确率算下来一模一样——都算"猜对一场"。但这两句话的水平差了十万八千里。53% 是谨慎但诚实的判断,95% 是盲目自信。反过来,西班牙要是没赢呢?说 53% 的人只是小幅失误,说 95% 的那位就是严重翻车。
准确率区分不了这种差异。我们需要的是能度量"你的概率说得准不准"的指标。
下面三个由浅入深,用天气预报来打比方更好理解:
Brier Score:你的概率有多"实诚"?
想象一个天气 APP,它说"明天 90% 下雨"。如果第二天真下了,它得高分;如果第二天大太阳,它就得低分。注意,它不只判"有没有下雨",而是判"你说 90% 的那个信心,配不配得上结果"。
Brier Score 干的就是这件事:把你预测的概率和实际发生(1)或没发生(0)之间的差距算一个分数。你的概率越接近真实频率,分越低越好。简单说,它衡量的不是对错,是概率的诚实度。
Brier Score 还有个近亲叫 Log Loss,逻辑类似但更激进——你要是满口"95% 必赢"结果输了,它的惩罚是指数级的。越自信翻车的话后果越严重。
然后是校准度,这个最直觉。
还是那个天气 APP。用了一年,你把它所有说"70% 下雨"的日子挑出来,数一数:这些日子里真正下雨的比例是多少?如果大约也是 70%——恭喜,这个 APP 校准得很好。如果它说 70% 但实际下雨了 95%,说明它系统性地不敢说大话;反过来说 70% 但只下了 30%,说明它一直在吹牛。
画成图就是一条"可靠性曲线":横轴是模型说的概率,纵轴是实际发生的频率。完美校准的模型,所有点都落在对角线上。你身边那个每次说"差不多七成把握"就真的十次对七次的朋友,就是人肉校准模型——未必每次都对,但他知道自己有多不确定。
最后说 RPS。
这个指标专门为足球这类有序预测设计。
还记得前面说的吗?胜、平、负是有顺序的。你预测"西班牙赢"结果平了,和你预测"西班牙赢"结果输了——这两种错,严重程度不一样。前者差一格,后者差两格。
Brier Score 不管这个,它把这两种错罚得一样重。RPS(Ranked Probability Score,排序概率评分)则更讲道理——偏了一格罚得轻,偏了两格罚得重。在足球预测评测圈,RPS 比 Brier 更受认可,就是因为它尊重了胜平负的顺序关系。
所以,硬预测看准确率(但必须配基准线),概率预测看 Brier/RPS + 校准度。
④ 防泄漏与"留证据"——预测必须冻结
最后一件事:评测要可复现、可验证、防作弊。
这听起来很学术,其实就一句话:预测必须在结果出来之前冻结下来,打上时间戳,事后不能改。
这叫预注册(pre-registration)。
科学界早就在用——临床试验必须在招募病人之前把假设、方法、分析计划全部注册在案,就是为了防止"看到结果再编假设"。
预测也一样。如果模型的预测没有在赛前以某种不可篡改的方式记录下来,那事后你说什么都没用——谁知道你是不是"看到结果之后调了参数再假装一直是这么预测的"?
实操上有几种做法:把预测写进 Git 仓库(每次 commit 都有时间戳和哈希值,不可篡改)、发到社交媒体留时间戳、甚至用区块链存证。
所有的这些核心并不是技术手段,而是一个原则:留下可验证的凭证,比事后任何口头声明都有效。
评测结果该怎么解读
好,四件事讲完了:时间切分防偷看、基准线防自嗨、好指标度量概率质量、预注册防作弊。体系搭完,比赛踢完,评测跑完——然后就能下结论了吗?
一般这种反问的答案都是不能。
原因很简单,一届世界杯的样本量,大概率不够你下结论。
一届世界杯小组赛 48 场,淘汰赛 16 到 32 场,总共 64 到 104 场比赛。听起来不少?在统计学意义上,这个样本量太小了。小到什么程度呢——掷硬币的人都有不低的概率排进预测榜前列。
这就是幸存者偏差在预测领域的经典表现:世界杯结束后一定会有人跳出来说"我猜对了 80% 的比赛",但你无法分辨他是真有水平还是纯属运气——因为基数够大的时候,总有人恰好蒙对。
所以评测结果不能只看排名,还要看不确定性。一个严谨的评测应该报告不确定性:"模型 A 比基准线好了 0.03——但样本只有 64 场,这点领先完全可能是运气。换一届世界杯,排名可能就反过来了。"
样本救不了你,方法才能。正因为样本小,上面四件事才更重要——你没法靠数量堆出结论,只能靠方法的严谨性来提高每一场比赛的信息利用效率。
写在最后
最后留三个问题。下次再看到有人秀"AI 预测",拿这三个问题去反问他:
没有基准线的准确率,别信。 问他打没打赢"无脑押热门"。 看校准度,别看准确率。 问他"说 70% 的时候是不是真有七成发生"。 不能冻结复现的预测,等于没有。 问他预测是不是赛前就锁定这个结果了。
大模型不是预言家,是推理器。搭好了给世界杯预测打分的体系,你就有了审视任何一个"AI 预测"的标尺。
这套方法不只能用在世界杯上——任何号称"AI 预测"的东西,都可以拿这把尺子量一量。
夜雨聆风