AI 模型押注足球简直一塌糊涂—

AI 模型押注足球简直一塌糊涂——xAI Grok 尤甚

原文标题：AI models are terrible at betting on soccer—especially xAI Grok 来源：Ars Technica | 作者：Tim Bradshaw, Financial Times | 发布：2026-04-11 11:15:17

来自 Google、OpenAI 和 Anthropic 的 AI 模型，在一整个英超赛季的虚拟押注中悉数亏损。新研究表明，即便是最先进的 AI 系统，在长期分析现实世界动态时也难逃力不从心。

AI 初创公司 General Reasoning 本周发布的"KellyBench"报告，揭示了 AI 在特定领域（如写代码）的飞速进步，与其在其他人类问题上力不从心之间的巨大鸿沟。

总部位于伦敦的 General Reasoning 对八款顶尖 AI 系统进行测试——在 2023–24 英超赛季的虚拟重现中，向它们提供各队详尽的历史数据与统计信息，并要求这些 AI 构建模型，以实现收益最大化、风险最优管理。

各 AI "智能体"随后对比赛结果和进球数下注，在赛季推进过程中不断适应新事件和球员数据更新。测试期间，AI 无法访问互联网获取实时结果，每款 AI 均有三次扭亏为盈的机会。

Anthropic 的 Claude Opus 4.6 表现最佳，平均亏损 11%，其中一次甚至接近盈亏平衡。

xAI 的 Grok 4.20 有一次直接爆仓，另外两次未能完成测试。Google 的 Gemini 3.1 Pro 有一次实现了 34% 的盈利，但另一次却爆仓。

"我们评估的每一个前沿模型在整个赛季都亏了钱，许多甚至直接归零，"论文作者总结道，AI 在这一场景下"系统性地逊于人类"。

AI 模型	平均 ROI	最佳一次	最差一次	平均最终资金
Anthropic Claude Opus 4.6	–11.0%	–0.2%	–18.8%	£89,035
OpenAI GPT-5.4	–13.6%	–4.1%	–31.6%	£86,365
Google Gemini 3.1 Pro	–43.3%	+33.7%	–100.0%	£56,715
Google Gemini Flash 3.1 LP	–58.4%	+24.7%	–100.0%	£41,605
Z.AI GLM-5	–58.8%	–14.3%	–100.0%	£41,221
Moonshot Kimi K2.5	–68.3%	–27.0%	–100.0%	£7,420
xAI Grok 4.20	–100.0%	–100.0%	–100.0%	£0
Acree Trinity	–100.0%	–100.0%	–100.0%	£0

每款模型初始资金标准化为 £100,000。ROI 和最终资金为三次尝试的平均值。Grok 和 Trinity 未完成所有尝试。

对于那些担心 AI 会抢走饭碗的白领从业者和企业而言，这一结果多少是个安慰——尽管 AI 正冲击着从金融到营销等各行各业的市值。

General Reasoning CEO、研究主要作者之一 Ross Taylor 表示："关于 AI 自动化的噱头铺天盖地，但真正把 AI 放到长时间跨度场景下进行测量的，寥寥无几。"

他还指出，目前常用的许多 AI 基准测试存在缺陷，因为它们建立在"非常静态的环境"中，与现实世界的混乱与复杂相去甚远。

General Reasoning 这篇尚未经过同行评审的论文，是对硅谷近期对 AI 代码编程能力的狂热期待的一记反向校验。

前 Meta AI 研究员 Taylor 说："如果你拿一些真实世界的任务测试 AI，它的表现会很糟糕……是的，软件工程非常重要，经济价值极高，但还有很多时间跨度更长的重要活动值得关注。"