
冠军Claude Opus 4.6,亏得最少就是赢
在测试中,Anthropic开发的Claude Opus 4.6表现最为稳健。
三次模拟测试平均亏损11.0%,最终平均资金为8.9万英镑(约合人民币81.5万元)。

虽然未能实现盈利,但在所有参与测试的模型中,Claude的亏损幅度最小。
研究团队指出,在该测试环境下,AI 整体“系统性落后于人类”。
也就是说,即使是表现最好的模型,也远未达到专业人类投注者的水平。
垫底Grok,一次亏光

GPT-5.4稳健,Gemini大起大落

AI在动态环境中的真实能力?

· ·· ··· ···· ····· ······ ····· ···· ··· ·· ·
一个能写诗、能聊天、能讲段子的 AI,不代表它能做好预测和决策。
Grok 在企业级应用方面或许仍有自己的市场。但在体育预测这个领域,它交出了一份令人尴尬的成绩单。
毕竟语言能力与判断能力是两回事。
而对于我们普通用户来说,认清“聊天”和“判断”之间的差距,或许比盲目信任某款模型更重要。
你怎么看?欢迎在评论区留下你的看法。


夜雨聆风