当三个实验室同时发现AI不会炒股

过去八个月里，三个互不相识的研究团队在各自的实验室里做着同一件事——让 AI 自主交易，然后观察它会如何亏钱。清华大学的团队在北京，上海人工智能实验室的研究者在张江，香港科技大学（广州）的学者在南沙。三地气候不同，测试的模型不同，选择的市场和时间窗口也不同。但当他们各自发表论文时，三份报告像拼图一样严丝合缝地扣在了一起，指向同一个被掩盖的真相。

这个真相不是“AI 还不够聪明”，而是我们以为在测试 AI 的投资能力，实际上只是在测量市场的脾气和我们自己的偏见。

标题党可信吗？

如果你只看三篇论文的摘要，会陷入一个数字迷宫。StockBench 说大多数模型跑赢了基线，TradeTrap 报告了年化149%的惊人回报，PortBench 却冷冷地告诉你90%的 AI 组合连“闭着眼睛平均买一篮子”都跑不赢。三个数字不可能同时为真，但三个团队都开源了代码，都用的是真实市场数据，都不是在卖产品。

矛盾的答案藏在时间轴里。StockBench 测试的四个月窗口，正好覆盖了2025年5到8月的上涨行情。TradeTrap 那个耀眼的149%，来自2025年10月单月、纳斯达克上涨期、5000美元小账户、不计手续费的回测——每一个设置都在放大收益。PortBench 选择了2024年全年，那是一个各类资产同涨的牛市，在这种环境下，“什么都买一点”本身就接近最优解，任何主动操作都只是制造摩擦。

三份成绩单没有撒谎，它们只是各自圈了一段行情，然后把行情的馈赠记在了 AI 的功劳簿上。真正的发现不在头条数字里，而在三篇论文不约而同指出的同一组缺陷中。这些缺陷不随模型升级消失，不因市场切换改变，像三条裂缝一样贯穿了从 GPT-5到 DeepSeek、从 Claude-4到 Qwen 的所有被测模型。

第一条裂缝：考试冠军开不了车

PortBench 的研究者设计了一个精巧的陷阱。他们给十个主流大模型出了6269道金融题，从计算风险价值到在约束条件下分配权重，每道题都由历史数据自动生成标准答案。考试结果看起来不错，公式代入类的题目十个模型里九个满分。然后研究者让同一批模型进入沙盒实盘：183个资产、十年数据、逐月调仓。

当考试排名和实盘排名被放在一起对比时，相关系数是负0.32。这不是“相关性弱”，而是负相关——考得越好的，干得越差。考试垫底的 Kimi 在实盘中冲到第三，考试第四的豆包 Lite 在实盘中垫底。

更致命的证据来自消融实验。研究者在“最大化夏普比率”的题目里，故意删掉了协方差矩阵——这是组合优化最核心的输入数据。结果十个模型里有七个的成绩反而提高了，Kimi 提高了0.43。这说明模型答对题目，靠的不是用数据做优化，而是把题面格式匹配到训练时背过的模板。给它真实数据，它当成了噪声。

这个发现在另一个大陆被独立验证。StockBench 团队在不同市场、不同模型上测试后，用一句话总结了同样的结论：“在静态金融知识任务上表现优异，并不必然转化为成功的交易策略。”两个团队互不引用，结论却同源。

这条裂缝的危险之处在于它的隐蔽性。模型厂商的发布会上，金融 benchmark 高分是标配节目，那些漂亮的分数会出现在采购评估表的第一列。但现在你知道了，那个分数和“能否托付决策”之间的相关性，在目前的测试中是负的。你评估的不是它的决策能力，而是它的背诵能力。

第二条裂缝：牛市里的全优生

StockBench 做了一个最直白的对照实验。他们把同一批模型放进两个时间窗：2025年1到4月的下跌期，和5到8月的上涨期。在上涨期里，大多数模型跑赢基线，看起来像一群合格的基金经理。但在下跌期里，没有一个模型跑赢基线，全军覆没。

更有意思的是排名本身会翻转。GPT-OSS-120B 在熊市里垫底，到了牛市直接登顶。同一个模型、同一套流程、同一个团队，只是换了一段行情，从倒数第一变成了正数第一。这意味着什么？意味着那些看起来像“投资能力”的东西，实际上是行情方向的倒影。

PortBench 补上了更狠的一刀。他们把模型放回三个历史灾难窗口：2015年股灾、2020年疫情崩盘、2022年加密货币雪崩。在保守型投资者画像下，十个模型有六个突破了回撤红线。突破的方式值得每个风控负责人记住——这些模型没有违反任何一条仓位规则。加密资产仓位始终在40%的上限之内，完全合规。但当币价腰斩50-70%时，“合规的小仓位”放大成了两位数的组合回撤。

论文把这个现象命名为“合规陷阱”：每条流程约束都满足，结果照样致命。过程合规和结果安全是两件事，AI 把第一件做得很好，好到能掩盖第二件的缺位。

这条裂缝暴露的是一个更普遍的问题。当你的组织在顺风环境中验证 AI 试点，得出“效果不错”的结论，然后推广到其他场景时——你推广的可能不是 AI 的能力，而是那段顺风。环境一旦翻转，你多久能发现？

第三条裂缝：不知道自己拿着什么

第三条裂缝最反直觉，因为它跟市场难度无关，跟模型智商也无关。TradeTrap 的研究者做了一组攻击实验：不碰市场数据，不碰模型权重，只篡改 AI 交易系统自己的持仓记录。在持仓文件里掺几条假交易，格式逼真，时间戳、价格、单号俱全。

结果分成两档。轻度篡改的情况下，AI 把假记录当成真历史，后续每个决策都建立在错误的自我认知上，收益从7.81%掉到1.88%。损失缓慢累积，不报警、不异常，像慢性失血。重度篡改的情况下，研究者让 AI 以为自己一直持有某只股票，它在再平衡环节反复卖出“那笔持仓”，在上涨行情里滚出越来越大的空头。5000美元的账户最后剩1928美元，回撤92%。

全程没有触发任何常规风控，因为从 AI 的视角看，自己每一步都是对的。它对账本的记忆和真实世界脱节了，自己浑然不觉。论文给这个现象起了个名字：认知幻觉。

还有一幕不需要任何攻击者。在 MCP 数据劫持实验的第三天，agent 前一天明明已经清仓，第二天却坚信自己还持有苹果的仓位，基于这个幻觉继续做决策。

PortBench 从完全不同的角度撞上了同一面墙。他们把投资流程拆成五段打分：市场解读、信号生成、权重优化、执行、风控。十个模型最弱的两段，全是后两段——执行得分最低只有0.032（满分1），所有模型的实际换手率只有理论最优的17.9%。前面分析得头头是道，到了“动手并跟踪自己动了什么”这一步，集体掉线。

一篇测被攻击时的表现，一篇测无攻击的日常，弱点重合在同一个位置：AI 对外部世界的理解，远好于对自身状态的管理。

这一条最值得放大，因为它不只关于炒股。任何被授权连续操作的 agent——下单、改库存、动客户数据、调预算——都依赖自己对“我做过什么、我现在持有什么”的记录。这一条断了，前面所有智能都在错误的地基上运行。而现在企业部署 agent 的检查清单上，普遍有“它能访问什么”，很少有“它怎么核对自己的账本”。

三条裂缝指向的同一个地基

单独看，每条裂缝都有人能辩护。考试不准？换个考法。行情依赖？人类基金经理也依赖行情。账本管不住？加个对账模块。但把三条裂缝合起来看，辩护就站不住了。

三个团队从能力、环境、可靠性三个方向各自开挖，在地下挖通了。他们共同指向一个底层事实：目前能观测到的“LLM 交易能力”，约等于行情方向加上系统设置决定的风险敞口，模型本身的贡献接近于零。考分是格式匹配，收益是行情馈赠，连“自己干了什么”都记不可靠。

这不等于 LLM 在金融决策里没有价值。PortBench 给出了一个值得管理层记下的重定位：传统策略对保守型和激进型客户给出同一个组合，LLM 能听懂自然语言约束、给不同风险偏好配出不同方案。它的价值在约束适配和流程理解，不在收益生成。买对了用途，它是好工具；买错了用途，它是一台会写检讨的亏损机器。

对管理层来说，这个判断的适用范围远不止交易台。交易只是最快暴露问题的场景，因为每个错误当天就有标价。你的客服 agent、采购 agent、合规 agent 犯同样的错误，标价只是来得慢一些。

两个假设

为了避免这篇文章被引用过头，需要说明两个限定条件。

第一，三篇论文测试的都是“裸模型加简单流程”——没有记忆模块、没有工具编排、没有多 agent 协作的精装修版本。PortBench 的作者自己承认这是局限，更复杂的 agent 框架还没被这套压力体系检验过，结论对它们暂时不适用。

第二，三篇论文的评测窗口最长十二个月、最短一个月，都不构成统计意义上的长期证据。

所以严谨的说法不是“AI 不能炒股”，而是“目前没有任何一份经得起交叉验证的证据表明它能”。举证责任在卖方。下次有人拿单一窗口的回测曲线找你要预算，这句话可以原样还给他。

可以反问自己的问题

三篇论文的代码都开源了，你的技术团队花一个下午就能在自己的场景里复现这三个实验。但比复现更快的办法，是把这五个问题带进下周的会议：

我们评估 AI 模型的指标里，有几项测的是“没见过的数据上的决策”？现有 AI 试点的成功结论，是在几种环境下得出的？逆向环境测过吗？AI 项目汇报收益时，有没有一个“如果什么都不做”的基线对照？哪些 agent 已经拥有连续操作权限，它们的操作台账是独立保存的，还是 agent 自己记的？我们的 AI 风控查的是“过程合规”还是“结果安全”？

再问一遍自己，这五个问题里，哪一个会对左右你的选择？

数据来源： StockBench（清华大学/北邮，arXiv 2510.02209）、TradeTrap（上海人工智能实验室，arXiv 2512.02261）、PortBench（香港科技大学（广州）,arXiv 2605.27887)。文中所有数字均出自三篇论文原文。