乐于分享
好东西不私藏

给6个AI各发10万美元炒股半年,大部分跑赢了大盘

给6个AI各发10万美元炒股半年,大部分跑赢了大盘

Rallies Arena 团队在半年前完成了一场轰动行业的金融实验:给 6 款主流大模型分别划拨 10 万美元初始资金,让它们在真实股票市场中独立完成全流程投资工作 —— 从自主研究分析、制定交易策略,到执行下单、动态管理仓位。

最终结果远超预期:绝大多数模型的收益率都跑赢了同期大盘
这不是模拟盘测试,也不是历史回测,而是真金白银的实盘交易。这篇实验报告在 X 平台获得了 18.7 万次浏览,虽然传播数据不算爆炸,但内容含金量极高 —— 团队不仅完整公开了实验过程与结论,还直接将这套方案产品化,推出了全球首个 AI 对冲基金。
Rallies Arena 的 AI Hedge Fund 项目 Logo

01 实验设计

:::

本次实验的核心逻辑非常清晰:完全按照人类基金经理的工作标准来要求大模型。每个模型拿到 10 万美元启动资金后,团队会为其接入全套专业金融数据源与工具链,让它像真正的投资经理一样,先做足功课再下单交易,而非凭直觉拍板。
具体来说,团队为每个模型搭建了完整的投研基础设施:SEC 文件向量检索系统、全球分析师评级数据库、多时间周期实时 K 线图(通过视觉 API 让模型直接读取图表形态)、上市公司历史基本面数据、Reddit 市场情绪趋势、全球宏观经济指标、实时财经新闻,以及配套的投资组合管理与自动化交易执行系统。
这就像你招聘了一位资深分析师,给他配齐彭博终端、路透社资讯、SEC 数据库和所有付费数据订阅,然后告诉他:去独立研究,为我创造收益。唯一的区别是,这位 “分析师” 是 GPT、Claude、Gemini 和通义千问这样的大模型。
实验中有一个关键细节:团队在系统提示词和工具调用逻辑上迭代了数百次。也就是说,并非简单地把模型接上数据就能用,还需要反复调教它的工作方法 —— 什么时候该检索 SEC 文件、什么时候该分析技术走势、什么时候该参考市场舆情,这些 “何时用什么工具” 的决策逻辑,本身就是决定成败的核心。
这和训练人类新员工的逻辑完全一致:光有能力不够,还得教他正确的工作流程。

02 模型的性格

:::

实验最有意思的发现,是不同大模型在投资决策中展现出了截然不同的人格特质,这种差异甚至比人类基金经理之间的风格差异还要明显。
通义千问(Qwen)系列是典型的激进赌徒型选手:它倾向于将全部资金押注在单一仓位上,并且极度固执,即便市场走势明显不利也不愿止损认错。这种行为看似是大模型幻觉的体现,但在投资场景中直接等同于满仓梭哈,最终收益几乎完全依赖运气。
Claude 则表现得像一位经验老道的价值型基金经理。它会主动进行分散化仓位管理,在市场环境变化时及时调整持仓,绝不会死扛亏损。团队特别指出,Claude 在 “主动仓位管理” 方面的表现远超其他所有模型。
而 GPT 的风格介于两者之间,更像一位严谨的行业研究员。
GPT 模型买入 GOOGL 的完整推理过程:从宏观判断到个股分析,最终以 286.64 美元建仓
来看它买入谷歌(GOOGL)时的完整推理过程:
我将 Alphabet 作为核心持仓进行配置,而非继续加仓资本支出沉重的 AI 基础设施公司。当前宏观环境仍处于高利率持续阶段,市场广度不足,因此我更倾向于持有现金流充裕、盈利真实的复利型企业。
Alphabet 的基本面极其扎实:运营利润率约 32%,营收同比增长 15%,净资产收益率约 32%,季度自由现金流高达 200 亿美元。最新财报显示,其每股收益和营收均超市场预期。
该股近 30 天下跌约 9%,年初至今累计下跌 13%,我选择在弱势时买入优质资产,而非在市场狂热时追涨。这是在保持 AI 赛道敞口的同时,降低组合风险的最优选择。
最终这笔交易以 286.64 美元建仓,目前已实现 3.18% 的浮盈。这套从宏观判断到个股基本面、再到技术面择时的完整逻辑,已经超过了绝大多数个人投资者。
用一句话总结各模型的投资风格:Qwen 是赌场玩家,Claude 是基金经理,GPT 是行业研究员。它们的差异不在基础智力水平上,而在底层的风险偏好 —— 而这种偏好,很可能是由训练数据和微调策略隐性塑造的。
这个发现本身就极具价值:选择哪个模型做投资决策,本质上是在选择与你匹配的风险收益特征。

03 半年成绩

:::

半年测试周期的核心数据终于出炉:除了 GPT 之外,其余所有闭源模型的收益率均跑赢了同期标普 500 指数,部分模型甚至取得了显著的超额收益。
团队也特别强调,半年的测试周期尚短,还不能得出绝对化的结论,但至少证明了一件事:搭配专业数据工具链的大模型,在投资决策领域绝非玩具,已经具备了实战价值。
值得注意的是,GPT 虽然整体未能跑赢大盘,但它的个股分析能力并不差。除了上述谷歌的交易之外,它的多笔选股都获得了正收益。这说明 GPT 的问题并不在选股能力,而在仓位管理和交易择时 —— 这恰恰也是绝大多数个人投资者的通病:分析得头头是道,但一操作就因为仓位失控和追涨杀跌亏钱。

04 工具为王

:::

团队在实验总结中反复强调一个反常识的核心观点:决定 AI 投资能力上限的,从来不是模型本身,而是你为它配备的工具
如果你直接让 GPT 或 Claude 去炒股,它们根本无法完成任务。因为裸模型没有实时市场数据,只能依赖网络上过时的公开信息,更无法访问 SEC 文件、结构化基本面数据、实时行情这些核心金融信息源。没有准确的输入,再聪明的模型也做不出正确的决策。
这和我们日常使用大模型的体验完全一致:ChatGPT 纯聊天时能力有限,但接上代码解释器、联网搜索、文件分析之后,能力会发生质的飞跃。在投资这种高度依赖信息的场景中更是如此 —— 工具决定了 AI 能获取什么信息,信息决定了它能做出什么决策。
团队的产品哲学也非常务实:不搞花哨的 MCP 协议和抽象层,先把核心工具自己造好、把所有能买到的金融数据源全部接好。在他们看来,只要你能搭建好完整的工具和数据管道,就已经掌握了最重要的核心竞争力。

有些人一上来就搞 MCP、Skill 这些抽象层。我们的看法更简单:如果你能自己造好工具、接好管道,你已经拥有了最重要的东西。

05 集合智慧

:::

六个月的实验跑完之后,团队做了一个关键决定:不选”最优模型”,而是把所有模型的能力整合成一个新 Agent——AI Hedge Fund。

AI Hedge Fund 的架构:一个主 Agent 在 6 个前沿模型之上做综合判断

思路其实很聪明。既然每个模型都有不同的”投资性格”——有的激进、有的稳健、有的善于选股、有的善于择时——那为什么不在它们之上再加一层,做一个”首席投资官”?

这就是 AI Hedge Fund 的核心架构:每天审查 6 个模型各自的研究报告、推理过程和交易动作,然后叠加自己的分析、质疑和数据验证,最终做出组合决策。

这本质上是一个三层决策系统:底层是原始数据,中层是 6 个模型的信号,顶层是主 Agent 的独立判断。每一层都可以纠正下一层的偏差。

这其实和华尔街传统基金的做法很像。一个大型对冲基金里面也有几十个分析师,每个人看不同行业、不同策略,然后 CIO 综合所有人的意见做最终决策。区别只是,这里的”分析师”全是大模型。

06 首周实盘

:::

AI Hedge Fund 已经上线一周了。来看看它的初始组合:

AI Hedge Fund 实盘组合:5 只持仓、总浮盈 1,708 美元、可用现金 64,658 美元

5 只股票,分别是 UBER(22.7%)、IBKR(21.6%)、GILD(19.1%)、RTX(18.5%)和 EME(18.0%)。可用现金还剩 64,658 美元——只用了约 35% 的资金建仓,非常保守。

几个细节值得注意:

第一,仓位非常均衡,每只占比都在 18%-23% 之间,没有梭哈。第二,选股逻辑清晰——UBER 是平台经济、IBKR 是金融科技、GILD 是生物医药、RTX 是国防航空、EME 是工业基建。行业分散,风格偏价值。

第三,所有仓位都在浮盈——从 +2.8% 到 +7.1% 不等,总浮盈 1,708 美元。虽然才一周,但至少开局不差。

来看它对 EME 的分析推理:

买入 9 股 EME,作为一个稳健的工业复合增长标的,它有真实的 AI 和数据中心基建业务敞口,不只是蹭概念。30 天跌了约 12%,同期 SPY 跌了约 4%,所以我在买弱势,不是追泡沫。基本面:营收同比增 16.6%,每股收益增 31%,利润增 26%,ROE 约 35%。估值只有约 25 倍市盈率,远低于同行。

这段推理相当扎实。它不仅看了基本面,还做了相对估值比较,并且特别注意到 EME 有”真实的 AI 基建业务”而非纯概念。这种判断能力,已经超过了大多数散户投资者。

而且你注意到没有——它没选任何一只纯 AI 概念股。没有 NVDA,没有 AMD,没有 SMCI。它选的是有真实现金流、有实际业务增长、同时估值合理的公司。这种”逆向价值投资“的风格,和华尔街最近流行的”质量因子”策略非常吻合。

AI 没有情绪,不会 FOMO,也不会因为 NVDA 涨了就跟风追进去。某种意义上,这正是它的优势所在。

07 大胆预言

:::

团队在文章最后抛出了一个极其大胆的预言:

我们坚信,在未来 2-3 年内,会出现完全由 AI 运行、零人工干预的对冲基金,而且它们会打败华尔街很多大型对冲基金。

客观来说,这个预言未必能完全实现。
华尔街的顶级对冲基金 —— 比如文艺复兴科技的大奖章基金 —— 本身就已经大量使用量化模型和机器学习技术。AI 对冲基金要战胜的对手,很可能也在用 AI。这不是人类 vs 机器的战争,而是新一代 AI vs 传统量化 AI 的军备竞赛。
但反过来说,传统量化基金的模型大多是统计驱动的,而 Rallies Arena 这类方案是语言驱动的 —— 模型不只看数字,还能 “读懂” SEC 文件、新闻报道和 Reddit 讨论帖的深层含义。这种对非结构化文本的理解能力,是传统量化模型完全不具备的。
因此更准确的说法是:AI 对冲基金不会彻底取代华尔街,但会严重压缩普通基金经理的生存空间。想想看,一个管理 1 亿美元的中型基金,通常需要 5-10 个分析师、几个交易员和一个风控团队。而 Rallies Arena 的方案,只需要几台服务器、一堆数据订阅和一个小型工程师团队,成本结构有着数量级的优势。
更重要的是,AI 不会在周五下午偷懒,不会因为个人情绪影响判断,不会因为去年赚了钱就过度自信。它 24 小时在线,每天都以完全一致的标准审查每一笔交易。
当然,它也有致命弱点:黑天鹅事件。当市场出现从未见过的极端情况 —— 比如 2020 年的疫情暴跌、2008 年的金融危机 ——AI 的训练数据里没有足够的参考案例,这种时候人类基金经理的直觉和经验可能更管用。

08 对我们意味着什么

:::

这个实验的意义远不止 “AI 可以炒股” 这么简单,它揭示了 AI 在复杂决策领域的三个深层发展趋势:
工具生态决定 AI 的能力天花板。Rallies Arena 的核心竞争力不是模型本身,而是它构建的那套完整的金融工具链。这和 AI 编程领域的逻辑完全一致:Claude Code 之所以强大,不只因为模型好,更因为它能读文件、跑命令、搜代码。谁能造出最好的垂直工具,谁就能释放最大的 AI 能力。
多模型协作优于单模型最优解。AI Hedge Fund 的三层决策架构,是一个极具普适性的设计模式。在绝大多数复杂决策场景中,让多个模型各展所长、再由顶层 Agent 做综合判断,效果远好于死磕一个所谓的 “最强模型”。
AI 对冲基金已经成为严肃的商业赛道。YC 已经将 “AI 驱动的资产管理” 列为 2026 年春季的重点创业方向。当全球最大的创业加速器开始认真关注这个领域,说明它已经不再是极客的玩具实验,而是一个具备巨大商业潜力的真实市场。
看完这个项目,我最大的感受是:大模型在投资领域的应用,已经彻底跨过了 “能不能做” 的门槛,正式进入了 “能做到多好” 的竞争阶段。
至于你是否愿意把自己的钱交给 AI 管理,那就是另一个问题了。

◇ ◆ ◇