最近看到一篇很有意思的论文:《A Review of Large Language Models for Stock Price Forecasting from a Hedge-Fund Perspective》。
这篇文章不是那种“提出一个新模型,然后回测收益惊人”的论文。它更像是一篇给金融大模型降温的综述:LLM 确实能改变量化投资研究流程,但如果直接把它当作“股价预测神器”,大概率会踩坑。
它的核心观点可以概括为一句话:
LLM 在股票预测中的最大价值,不是神奇地预测明天涨跌,而是把非结构化信息转化为可验证、可回测、可风控、可交易的结构化信号。
真正决定它能不能进入对冲基金交易系统的,不是论文里漂亮的 accuracy、F1、MSE,而是更残酷的问题:
• 有没有数据泄露? • 是否跨越完整牛熊周期? • 是否考虑交易成本、冲击成本和流动性? • 是否有足够容量? • 是否能在不同市场 regime 下稳定? • 是否最终能提高组合的风险调整收益?
这才是这篇论文最有价值的地方。
一、LLM在股票预测里到底能做什么?
论文把 LLM 在股票预测中的应用大致分成五类。
1. 新闻和社媒情绪分析
这是最常见的用法。
比如,把新闻、公告、社交媒体帖子、财经评论输入 LLM,让模型判断它对某只股票是正面、负面还是中性,再把情绪分数转成交易信号。
这个方向看起来很自然:市场会对信息反应,而 LLM 擅长读文本,所以 LLM 应该能帮助预测股价。
但问题也在这里。
金融市场里的“情绪”不是普通语义情绪。一个消息本身是好是坏,并不等于它对股价是利好还是利空。
例如:
• 强劲就业数据,在经济复苏早期可能是利好; • 但在通胀高企、市场担心加息时,反而可能是利空; • 公司利润超预期,如果市场早已充分定价,也可能“利好兑现”; • 公司利润低于预期,但管理层指引改善,也可能变成利好。
所以,简单让模型判断 positive / negative / neutral 是不够的。真正要判断的是:
这个信息相对于市场预期,是正向冲击还是负向冲击?它会影响哪个期限的现金流、折现率、风险偏好或仓位结构?
这也是普通 NLP 情绪分析和金融因子研究之间最大的差别。
2. 财报、公告和业绩会分析
第二类应用是让 LLM 阅读财报、10-K、年报、公告、电话会纪要、分析师报告,从里面抽取事实型信息。
这比单纯情绪分析更有价值。
因为投资研究中很多真正有用的信息不是“情绪”,而是事实:
• 收入增长来自哪个业务? • 毛利率变化的原因是什么? • 资本开支有没有上行? • 管理层是否改变了未来指引? • 存货、应收、现金流是否恶化? • 分析师预期是否在上修?
这类信息过去依赖研究员阅读和标注。LLM 的优势是可以把大量文本快速转成结构化变量。
在量化体系里,这类变量可以进一步变成:
• 盈利质量因子; • 成长预期因子; • 分析师情绪因子; • 业绩超预期因子; • 管理层语气变化因子; • 风险提示强度因子。
这比让 LLM 直接回答“明天涨不涨”靠谱得多。
3. 股票、行业和资产之间的关系抽取
第三类应用是关系图谱。
LLM 可以从新闻、公告、研报中抽取公司之间的关系,比如:
• 谁是谁的供应商; • 谁是谁的客户; • 哪些公司共同受益于同一个政策; • 哪些公司共同暴露于同一个产业链; • 哪些公司之间存在竞争、替代或联动关系。
这对量化投资很重要。
因为很多 alpha 并不是单一股票自身的信息,而是跨股票、跨行业、跨资产传导出来的。
例如:
• 英伟达上修资本开支,可能影响光模块、PCB、服务器、电源、液冷; • 苹果涨价,可能影响消费电子、组装、声学、光学、半导体设备; • 上游原材料涨价,可能利好资源品,但压制中游制造利润。
LLM 的优势在于,它可以把这些“人类研究员脑子里的产业链联想”变成机器可读的图结构。
然后再接入图神经网络、行业动量、Barra 风险模型、资金流因子,就会更接近真实可用的投资系统。
4. 把价格序列 token 化
第四类应用比较有意思:把价格序列离散化成 token,让 LLM 像预测下一个词一样预测下一个价格状态。
例如,把收益率分成若干区间:
• 大跌; • 小跌; • 震荡; • 小涨; • 大涨。
然后把连续价格序列变成一串 token,让模型学习其中的趋势、反转、季节性、波动率状态和长周期依赖。
这个思路很符合大模型的训练范式:next-token prediction。
但论文也提醒,这个方向高度依赖预处理。
分箱方式、标准化方式、token 间隔、是否差分、是否按股票独立归一化、是否跨股票统一尺度,都会显著影响模型看到的模式。
换句话说,这里真正重要的不只是 LLM,而是金融时间序列工程。
5. 多 Agent 投资系统
第五类是多 Agent 交易系统。
这也是最符合未来投资研究组织形态的方向。
一个 LLM Agent 负责读财报,一个负责看新闻,一个负责看技术趋势,一个负责看估值,一个负责看风险,一个负责看流动性,最后由一个组合经理 Agent 汇总判断。
这听起来像玩具,但其实很像真实基金公司的投研流程。
一个成熟的多 Agent 投资系统,不应该只有一个“预测 Agent”,而应该至少包括:
• 基本面 Agent; • 新闻事件 Agent; • 技术趋势 Agent; • 产业链 Agent; • 风险模型 Agent; • 交易成本 Agent; • 组合优化 Agent; • 复盘归因 Agent。
如果设计得好,LLM 不是替代基金经理,而是把基金经理脑子里的投研流程模块化、自动化、可追踪化。
二、论文真正精彩的地方:给金融LLM泼冷水
这篇论文最有价值的地方不是总结了多少 LLM 应用,而是从对冲基金视角指出了很多学术论文容易忽略的问题。
1. 情绪信号非常脆弱
金融文本里的情绪并不稳定。
同一句话,在不同宏观环境下可能有完全相反的含义。
“经济数据强劲”在复苏阶段是利好,在加息阶段可能是利空;“公司增加资本开支”在成长股里可能意味着未来扩张,在周期股里可能意味着产能过剩。
所以,LLM 不能只读文字表面,它必须结合:
• 宏观 regime; • 市场预期; • 行业周期; • 估值位置; • 仓位拥挤度; • 政策反应函数。
否则,所谓情绪因子很容易变成噪音。
2. 很多研究样本太短
论文特别强调,对冲基金不会因为一个策略在几个月里表现好,就认为它有效。
真正的策略至少要经过一个完整市场周期,包括牛市、熊市和震荡市。
但很多 LLM 股票预测论文只在很短的窗口里测试,比如几个月、一年、两年。这种结果很容易把阶段性行情误认为模型能力。
比如小盘股某几年表现好,模型刚好偏向小盘,就可能看起来收益很高;但这不一定是 LLM 发现了 alpha,可能只是吃到了 illiquidity premium 或 size 风格暴露。
3. 机器学习指标不等于交易指标
很多论文喜欢报:
• accuracy; • F1; • MSE; • MAE; • AUC。
这些指标对机器学习有意义,但不一定对交易有意义。
比如,用今天收盘价预测明天收盘价,MSE 可能非常小,因为价格本身高度自相关。但这对交易没什么价值,因为你真正关心的是明天的收益方向、收益幅度、可交易性和风险调整收益。
对冲基金真正关心的是:
• PnL; • Sharpe; • Sortino; • 最大回撤; • Calmar; • 换手率; • 交易成本; • 冲击成本; • 容量; • 风格暴露; • 极端市场表现。
所以,金融 LLM 研究不能只追求预测误差更小,而要证明它能改善组合收益风险比。
4. 数据泄露是最大陷阱
这是论文反复强调的问题。
金融文本很容易发生数据泄露。
比如公司发布财报后,市场已经反应了,之后几天的新闻、社交媒体和评论都会包含“市场如何反应”的信息。如果模型训练时把这些文本和财报事件混在一起,就相当于偷看了答案。
常见泄露包括:
• 随机切分训练集和测试集,而不是按时间切分; • 把事件发生后的评论用于预测事件当天或次日收益; • 文本中直接出现“股价大涨”“股价暴跌”等标签信息; • 同一事件在多天重复出现,训练集和测试集共享了事件信息; • 供应链和同行评论中间接泄露目标公司的未来反应。
所以,真正严谨的做法应该是:
• 严格时间戳对齐; • forward-only split; • event-level split; • 去重和事件聚类; • 剔除包含价格反应的回顾性文本; • 只使用交易时点之前真实可获得的信息。
这也是金融研究和普通机器学习 benchmark 最大的不同。
5. 不考虑流动性和交易成本的收益,基本不可信
论文还指出,很多策略看起来收益惊人,但一加入交易成本、滑点和流动性约束,收益会大幅下降甚至消失。
尤其是 LLM 文本信号,往往容易作用在:
• 小盘股; • 低流动性股票; • 短窗口事件交易; • 高频换仓组合。
这些地方回测最容易好看,但真实交易最容易崩。
如果一个策略日频换仓、偏小盘、换手率极高,又没有严格成本模型,那么它的高 Sharpe 很可能是幻觉。
对冲基金视角下,模型必须回答三个问题:
1. 能不能买进去? 2. 能不能卖出来? 3. 规模放大后收益还剩多少?
这比模型结构本身更重要。
三、这篇论文对量化投资最大的启发
我认为,这篇论文真正想说的是:
LLM 不应该被孤立地当成 alpha 模型,而应该成为量化投研流水线中的信息加工层。
它最适合承担的角色不是“预测器”,而是“研究员”和“特征工程师”。
一个更合理的架构应该是:
非结构化信息
↓
LLM抽取事实、情绪、事件、关系、预期差
↓
转成结构化因子
↓
接入Barra风险模型、行业模型、资金流、估值、动量、质量因子
↓
做横截面预测、组合优化、风险控制
↓
交易成本和容量约束
↓
实盘组合也就是说,LLM 的位置更像是:
• 信息清洗器; • 事件识别器; • 产业链图谱生成器; • 预期差提取器; • 文本因子生产器; • 投研流程自动化工具。
而不是:
“请告诉我明天哪只股票会涨。”
四、如果放到A股,应该怎么用?
如果把这篇论文的思想迁移到 A 股,我认为有几个方向特别值得做。
1. 公告和财报因子化
A 股公告密度高,信息结构复杂,人工阅读成本大。LLM 可以把公告转成事件因子:
• 业绩预告上修; • 大订单; • 回购; • 股权激励; • 定增; • 减持; • 并购; • 诉讼; • 监管问询; • 资产减值。
关键不是让 LLM 判断利好利空,而是把事件类型、金额、持续性、置信度、历史可比案例结构化。
2. 分析师预期变化
A 股很多成长股的核心驱动来自盈利预期变化。
LLM 可以读取研报摘要和业绩会纪要,抽取:
• 分析师是否上调收入; • 是否上调利润; • 上调来自价格、销量还是利润率; • 管理层语气是否变化; • 市场关注点是否从主题转向业绩。
这些可以和传统 analyst sentiment、growth_ts、盈利上修因子结合。
3. 产业链图谱和主题扩散
A 股很适合做主题扩散。
一个事件最先反映在龙头股,然后扩散到供应链、设备商、材料商、替代品、同行业二线公司。
LLM 可以帮助构建:
• AI 算力产业链; • 苹果链; • 华为链; • 机器人链; • 低空经济链; • 半导体设备链; • 光模块链; • 电力设备链。
然后结合行业动量、成交量、资金流、筹码集中度,判断主题是否仍在扩散。
4. Regime-aware 的文本因子
A 股文本信号很容易受市场状态影响。
同样一个利好,在牛市里可能连续涨停,在熊市里可能高开低走。
所以 LLM 因子最好不要独立使用,而要和市场 regime 结合:
• 风险偏好上行期; • 主题扩散期; • 流动性宽松期; • 缩量震荡期; • 杀估值期; • 业绩验证期。
文本信号只有在合适的 regime 下才有交易价值。
五、结论
这篇论文表面上是在综述 LLM 股票预测,实际上是在提醒大家:
金融大模型的核心竞争力,不是“模型更大”,而是“离真实交易更近”。
学术论文可以停留在 accuracy、F1、MSE。
但真实基金经理只关心:
• 能不能赚钱; • 能不能稳定赚钱; • 能不能在成本后赚钱; • 能不能放大规模后赚钱; • 能不能解释为什么赚钱; • 能不能在市场风格切换后继续赚钱。
所以,LLM 在投资中最现实的路径,不是替代量化模型,而是增强量化模型。
它负责读懂世界,因子模型负责约束风险,组合优化负责把信号变成仓位,交易系统负责控制成本。
未来真正有竞争力的投资系统,可能不是单一的“金融大模型”,而是:
LLM + 因子模型 + 风险模型 + 产业链图谱 + Agent 工作流 + 真实交易约束。
或许是金融 AI 最值得期待的方向。
参考论文
Olivia Zhang, Zhilin Zhang, A Review of Large Language Models for Stock Price Forecasting from a Hedge-Fund Perspective, arXiv:2605.05211v1, 2026.
论文链接:https://arxiv.org/pdf/2605.05211v1
夜雨聆风