AI 预测英超,谁是最强预言家?Claude Opus 4.6 表现最佳,Grok 垫底!

大家好，我是你们的科技观察员Luna。

如果把英超比赛结果交给 AI 来预测，结果会怎样？

AI 初创公司General Reasoning发布了一份研究报告，让8个主流大语言模型模拟预测2023–2024赛季英格兰足球超级联赛的结果，并尝试构建投注策略。

每个模型获得10万英镑的虚拟启动资金，在控制风险的前提下实现收益最大化。

结果是Claude Opus 4.6 表现最佳，马斯克旗下的Grok直接破产。

冠军Claude Opus 4.6，亏得最少就是赢

在测试中，Anthropic开发的Claude Opus 4.6表现最为稳健。

三次模拟测试平均亏损11.0%，最终平均资金为8.9万英镑（约合人民币81.5万元）。

虽然未能实现盈利，但在所有参与测试的模型中，Claude的亏损幅度最小。

研究团队指出，在该测试环境下，AI 整体“系统性落后于人类”。

也就是说，即使是表现最好的模型，也远未达到专业人类投注者的水平。

垫底Grok，一次亏光

与Claude形成鲜明对比的是Grok。

马斯克旗下xAI 开发的这款聊天机器人，以大胆言论和娱乐化风格著称，但在这次实用性测试中表现惨淡。

报告显示，Grok在一次测试中直接亏光全部10万英镑资金，另外两次甚至未能完成任务。

最终平均资金归零，在8款主流模型中排名垫底。

简单来说，它连参与游戏的资格都没能稳定维持。

GPT-5.4稳健，Gemini大起大落

OpenAI的GPT-5.4表现相对平稳，平均亏损13.6%，最终资金为8.6万英镑（约合78.7万元人民币）。

不过，在其最差的一次测试中，亏损达到了31.6%，稳定性仍不及 Claude。

谷歌的Gemini 3.1 Pro则呈现较大的波动性。平均亏损43.3%，但在表现最佳的一次测试中，实现了33.7%的正回报。

这种要么大赚、要么血亏的特征，反映出模型在风险评估和决策一致性方面仍有明显不足。

AI在动态环境中的真实能力？

General Reasoning首席执行官罗斯·泰勒在解读报告时指出，当前行业对 AI 自动化的讨论存在一定偏差。

大量测试仍然停留在静态、简化的场景中，无法反映现实世界的复杂性和长期动态变化。

英超预测恰恰是一个典型的高复杂度任务。

球员状态、天气条件、裁判判罚尺度、更衣室氛围等大量非结构化因素，很难完全通过历史数据和统计信息来建模。

这也解释了为什么即使是表现最好的 AI，也远未能战胜人类专业人士。

泰勒强调，业内需要建立更科学的评估方法，来衡量 AI 在长期、动态、不确定性环境中的真实能力。

· ·· ··· ···· ····· ······ ····· ···· ··· ·· ·

一个能写诗、能聊天、能讲段子的 AI，不代表它能做好预测和决策。

Grok 在企业级应用方面或许仍有自己的市场。但在体育预测这个领域，它交出了一份令人尴尬的成绩单。

毕竟语言能力与判断能力是两回事。

而对于我们普通用户来说，认清“聊天”和“判断”之间的差距，或许比盲目信任某款模型更重要。

你怎么看？欢迎在评论区留下你的看法。