原文标题:AI models are terrible at betting on soccer—especially xAI Grok 来源:Ars Technica | 作者:Tim Bradshaw, Financial Times | 发布:2026-04-11 11:15:17
来自 Google、OpenAI 和 Anthropic 的 AI 模型,在一整个英超赛季的虚拟押注中悉数亏损。新研究表明,即便是最先进的 AI 系统,在长期分析现实世界动态时也难逃力不从心。
AI 初创公司 General Reasoning 本周发布的"KellyBench"报告,揭示了 AI 在特定领域(如写代码)的飞速进步,与其在其他人类问题上力不从心之间的巨大鸿沟。
总部位于伦敦的 General Reasoning 对八款顶尖 AI 系统进行测试——在 2023–24 英超赛季的虚拟重现中,向它们提供各队详尽的历史数据与统计信息,并要求这些 AI 构建模型,以实现收益最大化、风险最优管理。
各 AI "智能体"随后对比赛结果和进球数下注,在赛季推进过程中不断适应新事件和球员数据更新。测试期间,AI 无法访问互联网获取实时结果,每款 AI 均有三次扭亏为盈的机会。
Anthropic 的 Claude Opus 4.6 表现最佳,平均亏损 11%,其中一次甚至接近盈亏平衡。
xAI 的 Grok 4.20 有一次直接爆仓,另外两次未能完成测试。Google 的 Gemini 3.1 Pro 有一次实现了 34% 的盈利,但另一次却爆仓。
"我们评估的每一个前沿模型在整个赛季都亏了钱,许多甚至直接归零,"论文作者总结道,AI 在这一场景下"系统性地逊于人类"。
每款模型初始资金标准化为 £100,000。ROI 和最终资金为三次尝试的平均值。Grok 和 Trinity 未完成所有尝试。
对于那些担心 AI 会抢走饭碗的白领从业者和企业而言,这一结果多少是个安慰——尽管 AI 正冲击着从金融到营销等各行各业的市值。
General Reasoning CEO、研究主要作者之一 Ross Taylor 表示:"关于 AI 自动化的噱头铺天盖地,但真正把 AI 放到长时间跨度场景下进行测量的,寥寥无几。"
他还指出,目前常用的许多 AI 基准测试存在缺陷,因为它们建立在"非常静态的环境"中,与现实世界的混乱与复杂相去甚远。
General Reasoning 这篇尚未经过同行评审的论文,是对硅谷近期对 AI 代码编程能力的狂热期待的一记反向校验。
前 Meta AI 研究员 Taylor 说:"如果你拿一些真实世界的任务测试 AI,它的表现会很糟糕……是的,软件工程非常重要,经济价值极高,但还有很多时间跨度更长的重要活动值得关注。"
© 2026 The Financial Times Ltd. 版权所有,未经授权不得转载、复制或修改
夜雨聆风