给6个AI各发10万美元炒股半年,大部分跑赢了大盘-夜雨聆风

给6个AI各发10万美元炒股半年,大部分跑赢了大盘

Rallies Arena 团队在半年前完成了一场轰动行业的金融实验：给 6 款主流大模型分别划拨 10 万美元初始资金，让它们在真实股票市场中独立完成全流程投资工作 —— 从自主研究分析、制定交易策略，到执行下单、动态管理仓位。

最终结果远超预期：绝大多数模型的收益率都跑赢了同期大盘。

这不是模拟盘测试，也不是历史回测，而是真金白银的实盘交易。这篇实验报告在 X 平台获得了 18.7 万次浏览，虽然传播数据不算爆炸，但内容含金量极高 —— 团队不仅完整公开了实验过程与结论，还直接将这套方案产品化，推出了全球首个 AI 对冲基金。

01 实验设计

:::

本次实验的核心逻辑非常清晰：完全按照人类基金经理的工作标准来要求大模型。每个模型拿到 10 万美元启动资金后，团队会为其接入全套专业金融数据源与工具链，让它像真正的投资经理一样，先做足功课再下单交易，而非凭直觉拍板。

具体来说，团队为每个模型搭建了完整的投研基础设施：SEC 文件向量检索系统、全球分析师评级数据库、多时间周期实时 K 线图（通过视觉 API 让模型直接读取图表形态）、上市公司历史基本面数据、Reddit 市场情绪趋势、全球宏观经济指标、实时财经新闻，以及配套的投资组合管理与自动化交易执行系统。

这就像你招聘了一位资深分析师，给他配齐彭博终端、路透社资讯、SEC 数据库和所有付费数据订阅，然后告诉他：去独立研究，为我创造收益。唯一的区别是，这位 “分析师” 是 GPT、Claude、Gemini 和通义千问这样的大模型。

实验中有一个关键细节：团队在系统提示词和工具调用逻辑上迭代了数百次。也就是说，并非简单地把模型接上数据就能用，还需要反复调教它的工作方法 —— 什么时候该检索 SEC 文件、什么时候该分析技术走势、什么时候该参考市场舆情，这些 “何时用什么工具” 的决策逻辑，本身就是决定成败的核心。

这和训练人类新员工的逻辑完全一致：光有能力不够，还得教他正确的工作流程。

02 模型的性格

:::

实验最有意思的发现，是不同大模型在投资决策中展现出了截然不同的人格特质，这种差异甚至比人类基金经理之间的风格差异还要明显。

通义千问（Qwen）系列是典型的激进赌徒型选手：它倾向于将全部资金押注在单一仓位上，并且极度固执，即便市场走势明显不利也不愿止损认错。这种行为看似是大模型幻觉的体现，但在投资场景中直接等同于满仓梭哈，最终收益几乎完全依赖运气。

Claude 则表现得像一位经验老道的价值型基金经理。它会主动进行分散化仓位管理，在市场环境变化时及时调整持仓，绝不会死扛亏损。团队特别指出，Claude 在 “主动仓位管理” 方面的表现远超其他所有模型。

而 GPT 的风格介于两者之间，更像一位严谨的行业研究员。

GPT 模型买入 GOOGL 的完整推理过程：从宏观判断到个股分析，最终以 286.64 美元建仓

来看它买入谷歌（GOOGL）时的完整推理过程：

我将 Alphabet 作为核心持仓进行配置，而非继续加仓资本支出沉重的 AI 基础设施公司。当前宏观环境仍处于高利率持续阶段，市场广度不足，因此我更倾向于持有现金流充裕、盈利真实的复利型企业。

Alphabet 的基本面极其扎实：运营利润率约 32%，营收同比增长 15%，净资产收益率约 32%，季度自由现金流高达 200 亿美元。最新财报显示，其每股收益和营收均超市场预期。

该股近 30 天下跌约 9%，年初至今累计下跌 13%，我选择在弱势时买入优质资产，而非在市场狂热时追涨。这是在保持 AI 赛道敞口的同时，降低组合风险的最优选择。

最终这笔交易以 286.64 美元建仓，目前已实现 3.18% 的浮盈。这套从宏观判断到个股基本面、再到技术面择时的完整逻辑，已经超过了绝大多数个人投资者。

用一句话总结各模型的投资风格：Qwen 是赌场玩家，Claude 是基金经理，GPT 是行业研究员。它们的差异不在基础智力水平上，而在底层的风险偏好 —— 而这种偏好，很可能是由训练数据和微调策略隐性塑造的。

这个发现本身就极具价值：选择哪个模型做投资决策，本质上是在选择与你匹配的风险收益特征。

03 半年成绩

:::

半年测试周期的核心数据终于出炉：除了 GPT 之外，其余所有闭源模型的收益率均跑赢了同期标普 500 指数，部分模型甚至取得了显著的超额收益。

团队也特别强调，半年的测试周期尚短，还不能得出绝对化的结论，但至少证明了一件事：搭配专业数据工具链的大模型，在投资决策领域绝非玩具，已经具备了实战价值。

值得注意的是，GPT 虽然整体未能跑赢大盘，但它的个股分析能力并不差。除了上述谷歌的交易之外，它的多笔选股都获得了正收益。这说明 GPT 的问题并不在选股能力，而在仓位管理和交易择时 —— 这恰恰也是绝大多数个人投资者的通病：分析得头头是道，但一操作就因为仓位失控和追涨杀跌亏钱。

04 工具为王

:::

团队在实验总结中反复强调一个反常识的核心观点：决定 AI 投资能力上限的，从来不是模型本身，而是你为它配备的工具。

如果你直接让 GPT 或 Claude 去炒股，它们根本无法完成任务。因为裸模型没有实时市场数据，只能依赖网络上过时的公开信息，更无法访问 SEC 文件、结构化基本面数据、实时行情这些核心金融信息源。没有准确的输入，再聪明的模型也做不出正确的决策。

这和我们日常使用大模型的体验完全一致：ChatGPT 纯聊天时能力有限，但接上代码解释器、联网搜索、文件分析之后，能力会发生质的飞跃。在投资这种高度依赖信息的场景中更是如此 —— 工具决定了 AI 能获取什么信息，信息决定了它能做出什么决策。

团队的产品哲学也非常务实：不搞花哨的 MCP 协议和抽象层，先把核心工具自己造好、把所有能买到的金融数据源全部接好。在他们看来，只要你能搭建好完整的工具和数据管道，就已经掌握了最重要的核心竞争力。

有些人一上来就搞 MCP、Skill 这些抽象层。我们的看法更简单：如果你能自己造好工具、接好管道，你已经拥有了最重要的东西。

05 集合智慧

:::

六个月的实验跑完之后，团队做了一个关键决定：不选”最优模型”，而是把所有模型的能力整合成一个新 Agent——AI Hedge Fund。

AI Hedge Fund 的架构：一个主 Agent 在 6 个前沿模型之上做综合判断

思路其实很聪明。既然每个模型都有不同的”投资性格”——有的激进、有的稳健、有的善于选股、有的善于择时——那为什么不在它们之上再加一层，做一个”首席投资官”？

这就是 AI Hedge Fund 的核心架构：每天审查 6 个模型各自的研究报告、推理过程和交易动作，然后叠加自己的分析、质疑和数据验证，最终做出组合决策。

这本质上是一个三层决策系统：底层是原始数据，中层是 6 个模型的信号，顶层是主 Agent 的独立判断。每一层都可以纠正下一层的偏差。

这其实和华尔街传统基金的做法很像。一个大型对冲基金里面也有几十个分析师，每个人看不同行业、不同策略，然后 CIO 综合所有人的意见做最终决策。区别只是，这里的”分析师”全是大模型。

06 首周实盘

:::

AI Hedge Fund 已经上线一周了。来看看它的初始组合：

AI Hedge Fund 实盘组合：5 只持仓、总浮盈 1,708 美元、可用现金 64,658 美元

5 只股票，分别是 UBER（22.7%）、IBKR（21.6%）、GILD（19.1%）、RTX（18.5%）和 EME（18.0%）。可用现金还剩 64,658 美元——只用了约 35% 的资金建仓，非常保守。

几个细节值得注意：

第一，仓位非常均衡，每只占比都在 18%-23% 之间，没有梭哈。第二，选股逻辑清晰——UBER 是平台经济、IBKR 是金融科技、GILD 是生物医药、RTX 是国防航空、EME 是工业基建。行业分散，风格偏价值。

第三，所有仓位都在浮盈——从 +2.8% 到 +7.1% 不等，总浮盈 1,708 美元。虽然才一周，但至少开局不差。

来看它对 EME 的分析推理：

买入 9 股 EME，作为一个稳健的工业复合增长标的，它有真实的 AI 和数据中心基建业务敞口，不只是蹭概念。30 天跌了约 12%，同期 SPY 跌了约 4%，所以我在买弱势，不是追泡沫。基本面：营收同比增 16.6%，每股收益增 31%，利润增 26%，ROE 约 35%。估值只有约 25 倍市盈率，远低于同行。

这段推理相当扎实。它不仅看了基本面，还做了相对估值比较，并且特别注意到 EME 有”真实的 AI 基建业务”而非纯概念。这种判断能力，已经超过了大多数散户投资者。

而且你注意到没有——它没选任何一只纯 AI 概念股。没有 NVDA，没有 AMD，没有 SMCI。它选的是有真实现金流、有实际业务增长、同时估值合理的公司。这种”逆向价值投资“的风格，和华尔街最近流行的”质量因子”策略非常吻合。

AI 没有情绪，不会 FOMO，也不会因为 NVDA 涨了就跟风追进去。某种意义上，这正是它的优势所在。

07 大胆预言

:::

团队在文章最后抛出了一个极其大胆的预言：

我们坚信，在未来 2-3 年内，会出现完全由 AI 运行、零人工干预的对冲基金，而且它们会打败华尔街很多大型对冲基金。

客观来说，这个预言未必能完全实现。

华尔街的顶级对冲基金 —— 比如文艺复兴科技的大奖章基金 —— 本身就已经大量使用量化模型和机器学习技术。AI 对冲基金要战胜的对手，很可能也在用 AI。这不是人类 vs 机器的战争，而是新一代 AI vs 传统量化 AI 的军备竞赛。

但反过来说，传统量化基金的模型大多是统计驱动的，而 Rallies Arena 这类方案是语言驱动的 —— 模型不只看数字，还能 “读懂” SEC 文件、新闻报道和 Reddit 讨论帖的深层含义。这种对非结构化文本的理解能力，是传统量化模型完全不具备的。

因此更准确的说法是：AI 对冲基金不会彻底取代华尔街，但会严重压缩普通基金经理的生存空间。想想看，一个管理 1 亿美元的中型基金，通常需要 5-10 个分析师、几个交易员和一个风控团队。而 Rallies Arena 的方案，只需要几台服务器、一堆数据订阅和一个小型工程师团队，成本结构有着数量级的优势。

更重要的是，AI 不会在周五下午偷懒，不会因为个人情绪影响判断，不会因为去年赚了钱就过度自信。它 24 小时在线，每天都以完全一致的标准审查每一笔交易。

当然，它也有致命弱点：黑天鹅事件。当市场出现从未见过的极端情况 —— 比如 2020 年的疫情暴跌、2008 年的金融危机 ——AI 的训练数据里没有足够的参考案例，这种时候人类基金经理的直觉和经验可能更管用。

08 对我们意味着什么

:::

这个实验的意义远不止 “AI 可以炒股” 这么简单，它揭示了 AI 在复杂决策领域的三个深层发展趋势：

工具生态决定 AI 的能力天花板。Rallies Arena 的核心竞争力不是模型本身，而是它构建的那套完整的金融工具链。这和 AI 编程领域的逻辑完全一致：Claude Code 之所以强大，不只因为模型好，更因为它能读文件、跑命令、搜代码。谁能造出最好的垂直工具，谁就能释放最大的 AI 能力。

多模型协作优于单模型最优解。AI Hedge Fund 的三层决策架构，是一个极具普适性的设计模式。在绝大多数复杂决策场景中，让多个模型各展所长、再由顶层 Agent 做综合判断，效果远好于死磕一个所谓的 “最强模型”。

AI 对冲基金已经成为严肃的商业赛道。YC 已经将 “AI 驱动的资产管理” 列为 2026 年春季的重点创业方向。当全球最大的创业加速器开始认真关注这个领域，说明它已经不再是极客的玩具实验，而是一个具备巨大商业潜力的真实市场。

看完这个项目，我最大的感受是：大模型在投资领域的应用，已经彻底跨过了 “能不能做” 的门槛，正式进入了 “能做到多好” 的竞争阶段。

至于你是否愿意把自己的钱交给 AI 管理，那就是另一个问题了。

◇ ◆ ◇