AI预测股票,真正的价值不是“预测股价”

最近看到一篇很有意思的论文：《A Review of Large Language Models for Stock Price Forecasting from a Hedge-Fund Perspective》。

这篇文章不是那种“提出一个新模型，然后回测收益惊人”的论文。它更像是一篇给金融大模型降温的综述：LLM 确实能改变量化投资研究流程，但如果直接把它当作“股价预测神器”，大概率会踩坑。

它的核心观点可以概括为一句话：

LLM 在股票预测中的最大价值，不是神奇地预测明天涨跌，而是把非结构化信息转化为可验证、可回测、可风控、可交易的结构化信号。

真正决定它能不能进入对冲基金交易系统的，不是论文里漂亮的 accuracy、F1、MSE，而是更残酷的问题：

• 有没有数据泄露？
• 是否跨越完整牛熊周期？
• 是否考虑交易成本、冲击成本和流动性？
• 是否有足够容量？
• 是否能在不同市场 regime 下稳定？
• 是否最终能提高组合的风险调整收益？

这才是这篇论文最有价值的地方。

一、LLM在股票预测里到底能做什么？

论文把 LLM 在股票预测中的应用大致分成五类。

1. 新闻和社媒情绪分析

这是最常见的用法。

比如，把新闻、公告、社交媒体帖子、财经评论输入 LLM，让模型判断它对某只股票是正面、负面还是中性，再把情绪分数转成交易信号。

这个方向看起来很自然：市场会对信息反应，而 LLM 擅长读文本，所以 LLM 应该能帮助预测股价。

但问题也在这里。

金融市场里的“情绪”不是普通语义情绪。一个消息本身是好是坏，并不等于它对股价是利好还是利空。

例如：

• 强劲就业数据，在经济复苏早期可能是利好；
• 但在通胀高企、市场担心加息时，反而可能是利空；
• 公司利润超预期，如果市场早已充分定价，也可能“利好兑现”；
• 公司利润低于预期，但管理层指引改善，也可能变成利好。

所以，简单让模型判断 positive / negative / neutral 是不够的。真正要判断的是：

这个信息相对于市场预期，是正向冲击还是负向冲击？它会影响哪个期限的现金流、折现率、风险偏好或仓位结构？

这也是普通 NLP 情绪分析和金融因子研究之间最大的差别。

2. 财报、公告和业绩会分析

第二类应用是让 LLM 阅读财报、10-K、年报、公告、电话会纪要、分析师报告，从里面抽取事实型信息。

这比单纯情绪分析更有价值。

因为投资研究中很多真正有用的信息不是“情绪”，而是事实：

• 收入增长来自哪个业务？
• 毛利率变化的原因是什么？
• 资本开支有没有上行？
• 管理层是否改变了未来指引？
• 存货、应收、现金流是否恶化？
• 分析师预期是否在上修？

这类信息过去依赖研究员阅读和标注。LLM 的优势是可以把大量文本快速转成结构化变量。

在量化体系里，这类变量可以进一步变成：

• 盈利质量因子；
• 成长预期因子；
• 分析师情绪因子；
• 业绩超预期因子；
• 管理层语气变化因子；
• 风险提示强度因子。

这比让 LLM 直接回答“明天涨不涨”靠谱得多。

3. 股票、行业和资产之间的关系抽取

第三类应用是关系图谱。

LLM 可以从新闻、公告、研报中抽取公司之间的关系，比如：

• 谁是谁的供应商；
• 谁是谁的客户；
• 哪些公司共同受益于同一个政策；
• 哪些公司共同暴露于同一个产业链；
• 哪些公司之间存在竞争、替代或联动关系。

这对量化投资很重要。

因为很多 alpha 并不是单一股票自身的信息，而是跨股票、跨行业、跨资产传导出来的。

例如：

• 英伟达上修资本开支，可能影响光模块、PCB、服务器、电源、液冷；
• 苹果涨价，可能影响消费电子、组装、声学、光学、半导体设备；
• 上游原材料涨价，可能利好资源品，但压制中游制造利润。

LLM 的优势在于，它可以把这些“人类研究员脑子里的产业链联想”变成机器可读的图结构。

然后再接入图神经网络、行业动量、Barra 风险模型、资金流因子，就会更接近真实可用的投资系统。

4. 把价格序列 token 化

第四类应用比较有意思：把价格序列离散化成 token，让 LLM 像预测下一个词一样预测下一个价格状态。

例如，把收益率分成若干区间：

• 大跌；
• 小跌；
• 震荡；
• 小涨；
• 大涨。

然后把连续价格序列变成一串 token，让模型学习其中的趋势、反转、季节性、波动率状态和长周期依赖。

这个思路很符合大模型的训练范式：next-token prediction。

但论文也提醒，这个方向高度依赖预处理。

分箱方式、标准化方式、token 间隔、是否差分、是否按股票独立归一化、是否跨股票统一尺度，都会显著影响模型看到的模式。

换句话说，这里真正重要的不只是 LLM，而是金融时间序列工程。

5. 多 Agent 投资系统

第五类是多 Agent 交易系统。

这也是最符合未来投资研究组织形态的方向。

一个 LLM Agent 负责读财报，一个负责看新闻，一个负责看技术趋势，一个负责看估值，一个负责看风险，一个负责看流动性，最后由一个组合经理 Agent 汇总判断。

这听起来像玩具，但其实很像真实基金公司的投研流程。

一个成熟的多 Agent 投资系统，不应该只有一个“预测 Agent”，而应该至少包括：

• 基本面 Agent；
• 新闻事件 Agent；
• 技术趋势 Agent；
• 产业链 Agent；
• 风险模型 Agent；
• 交易成本 Agent；
• 组合优化 Agent；
• 复盘归因 Agent。

如果设计得好，LLM 不是替代基金经理，而是把基金经理脑子里的投研流程模块化、自动化、可追踪化。

二、论文真正精彩的地方：给金融LLM泼冷水

这篇论文最有价值的地方不是总结了多少 LLM 应用，而是从对冲基金视角指出了很多学术论文容易忽略的问题。

1. 情绪信号非常脆弱

金融文本里的情绪并不稳定。

同一句话，在不同宏观环境下可能有完全相反的含义。

“经济数据强劲”在复苏阶段是利好，在加息阶段可能是利空；“公司增加资本开支”在成长股里可能意味着未来扩张，在周期股里可能意味着产能过剩。

所以，LLM 不能只读文字表面，它必须结合：

• 宏观 regime；
• 市场预期；
• 行业周期；
• 估值位置；
• 仓位拥挤度；
• 政策反应函数。

否则，所谓情绪因子很容易变成噪音。

2. 很多研究样本太短

论文特别强调，对冲基金不会因为一个策略在几个月里表现好，就认为它有效。

真正的策略至少要经过一个完整市场周期，包括牛市、熊市和震荡市。

但很多 LLM 股票预测论文只在很短的窗口里测试，比如几个月、一年、两年。这种结果很容易把阶段性行情误认为模型能力。

比如小盘股某几年表现好，模型刚好偏向小盘，就可能看起来收益很高；但这不一定是 LLM 发现了 alpha，可能只是吃到了 illiquidity premium 或 size 风格暴露。

3. 机器学习指标不等于交易指标

很多论文喜欢报：

• accuracy；
• F1；
• MSE；
• MAE；
• AUC。

这些指标对机器学习有意义，但不一定对交易有意义。

比如，用今天收盘价预测明天收盘价，MSE 可能非常小，因为价格本身高度自相关。但这对交易没什么价值，因为你真正关心的是明天的收益方向、收益幅度、可交易性和风险调整收益。

对冲基金真正关心的是：

• PnL；
• Sharpe；
• Sortino；
• 最大回撤；
• Calmar；
• 换手率；
• 交易成本；
• 冲击成本；
• 容量；
• 风格暴露；
• 极端市场表现。

所以，金融 LLM 研究不能只追求预测误差更小，而要证明它能改善组合收益风险比。

4. 数据泄露是最大陷阱

这是论文反复强调的问题。

金融文本很容易发生数据泄露。

比如公司发布财报后，市场已经反应了，之后几天的新闻、社交媒体和评论都会包含“市场如何反应”的信息。如果模型训练时把这些文本和财报事件混在一起，就相当于偷看了答案。

常见泄露包括：

• 随机切分训练集和测试集，而不是按时间切分；
• 把事件发生后的评论用于预测事件当天或次日收益；
• 文本中直接出现“股价大涨”“股价暴跌”等标签信息；
• 同一事件在多天重复出现，训练集和测试集共享了事件信息；
• 供应链和同行评论中间接泄露目标公司的未来反应。

所以，真正严谨的做法应该是：

• 严格时间戳对齐；
• forward-only split；
• event-level split；
• 去重和事件聚类；
• 剔除包含价格反应的回顾性文本；
• 只使用交易时点之前真实可获得的信息。

这也是金融研究和普通机器学习 benchmark 最大的不同。

5. 不考虑流动性和交易成本的收益，基本不可信

论文还指出，很多策略看起来收益惊人，但一加入交易成本、滑点和流动性约束，收益会大幅下降甚至消失。

尤其是 LLM 文本信号，往往容易作用在：

• 小盘股；
• 低流动性股票；
• 短窗口事件交易；
• 高频换仓组合。

这些地方回测最容易好看，但真实交易最容易崩。

如果一个策略日频换仓、偏小盘、换手率极高，又没有严格成本模型，那么它的高 Sharpe 很可能是幻觉。

对冲基金视角下，模型必须回答三个问题：

1. 能不能买进去？
2. 能不能卖出来？
3. 规模放大后收益还剩多少？

这比模型结构本身更重要。

三、这篇论文对量化投资最大的启发

我认为，这篇论文真正想说的是：

LLM 不应该被孤立地当成 alpha 模型，而应该成为量化投研流水线中的信息加工层。

它最适合承担的角色不是“预测器”，而是“研究员”和“特征工程师”。

一个更合理的架构应该是：

非结构化信息
    ↓
LLM抽取事实、情绪、事件、关系、预期差
    ↓
转成结构化因子
    ↓
接入Barra风险模型、行业模型、资金流、估值、动量、质量因子
    ↓
做横截面预测、组合优化、风险控制
    ↓
交易成本和容量约束
    ↓
实盘组合

也就是说，LLM 的位置更像是：

• 信息清洗器；
• 事件识别器；
• 产业链图谱生成器；
• 预期差提取器；
• 文本因子生产器；
• 投研流程自动化工具。

而不是：

“请告诉我明天哪只股票会涨。”

四、如果放到A股，应该怎么用？

如果把这篇论文的思想迁移到 A 股，我认为有几个方向特别值得做。

1. 公告和财报因子化

A 股公告密度高，信息结构复杂，人工阅读成本大。LLM 可以把公告转成事件因子：

• 业绩预告上修；
• 大订单；
• 回购；
• 股权激励；
• 定增；
• 减持；
• 并购；
• 诉讼；
• 监管问询；
• 资产减值。

关键不是让 LLM 判断利好利空，而是把事件类型、金额、持续性、置信度、历史可比案例结构化。

2. 分析师预期变化

A 股很多成长股的核心驱动来自盈利预期变化。

LLM 可以读取研报摘要和业绩会纪要，抽取：

• 分析师是否上调收入；
• 是否上调利润；
• 上调来自价格、销量还是利润率；
• 管理层语气是否变化；
• 市场关注点是否从主题转向业绩。

这些可以和传统 analyst sentiment、growth_ts、盈利上修因子结合。

3. 产业链图谱和主题扩散

A 股很适合做主题扩散。

一个事件最先反映在龙头股，然后扩散到供应链、设备商、材料商、替代品、同行业二线公司。

LLM 可以帮助构建：

• AI 算力产业链；
• 苹果链；
• 华为链；
• 机器人链；
• 低空经济链；
• 半导体设备链；
• 光模块链；
• 电力设备链。

然后结合行业动量、成交量、资金流、筹码集中度，判断主题是否仍在扩散。

4. Regime-aware 的文本因子

A 股文本信号很容易受市场状态影响。

同样一个利好，在牛市里可能连续涨停，在熊市里可能高开低走。

所以 LLM 因子最好不要独立使用，而要和市场 regime 结合：

• 风险偏好上行期；
• 主题扩散期；
• 流动性宽松期；
• 缩量震荡期；
• 杀估值期；
• 业绩验证期。

文本信号只有在合适的 regime 下才有交易价值。

五、结论

这篇论文表面上是在综述 LLM 股票预测，实际上是在提醒大家：

金融大模型的核心竞争力，不是“模型更大”，而是“离真实交易更近”。

学术论文可以停留在 accuracy、F1、MSE。

但真实基金经理只关心：

• 能不能赚钱；
• 能不能稳定赚钱；
• 能不能在成本后赚钱；
• 能不能放大规模后赚钱；
• 能不能解释为什么赚钱；
• 能不能在市场风格切换后继续赚钱。

所以，LLM 在投资中最现实的路径，不是替代量化模型，而是增强量化模型。

它负责读懂世界，因子模型负责约束风险，组合优化负责把信号变成仓位，交易系统负责控制成本。

未来真正有竞争力的投资系统，可能不是单一的“金融大模型”，而是：

LLM + 因子模型 + 风险模型 + 产业链图谱 + Agent 工作流 + 真实交易约束。

或许是金融 AI 最值得期待的方向。

参考论文

Olivia Zhang, Zhilin Zhang, A Review of Large Language Models for Stock Price Forecasting from a Hedge-Fund Perspective, arXiv:2605.05211v1, 2026.

论文链接：https://arxiv.org/pdf/2605.05211v1