AI通过会议纪要预测美联储加息?

论文：https://arxiv.org/abs/2605.30363

GitHub：https://github.com/mingxuan-yi/regime_shift

2015年12月16日，美联储宣布加息25个基点。这是2008年金融危机之后，美国第一次加息。

如果你是一个美债交易员，你在12月16日的哪个时间点确认这件事？大概率是美联储公告发出来的那一秒。到那个时候，所有的价格已经反映了。

但是如果有人告诉你，2015年10月28日那天的FOMC会议纪要里，措辞已经悄悄变了。某个词从significant变成了notable，某个段落的语气从关切变成了审慎乐观。这些信号单独看微不足道，但放在一起，它们在10月就已经构筑了一个完整的加息叙事。等市场真正定价的时候，已经过去了将近两个月。

2026年5月，布里斯托大学和卡迪夫大学的团队发表了一篇论文，开了一个GitHub仓库。他们干了一件事：把2010年到2024年所有FOMC会议纪要喂给LLM，让它判断每次会议的前后，货币政策是不是要变天了。然后，再用14个宏观变量的真实数据反向验证LLM的判断。结果，26个历史拐点里，它准确标记了23个，F1分数0.82。更关键的是，它的检测几乎没有延迟,,大多数拐点在当天就被抓到了。

今天奇哥就把这套方法拆开看看。

一、为什么纯数据方法抓不住政策拐点？

图1利率决议前后的因果关系网络：升息后，收益率、利差和波动率的关系网发生了质变（来源：论文 Figure 1）

先看一个硬伤。传统的制度转换检测方法，比如PELT、二元分割、Bai-Perron，它们的工作原理都是在搜索数据中突然的均值跳变或者方差变化。这个方法在检测金融危机、流动性冲击这些由市场自身驱动的拐点时效果不错。但在检测政策驱动的拐点时，问题就来了。

政策拐点有两个特点。第一，它是有预谋的。美联储不会今天早上起床突然决定加息，它在之前的会议纪要里反复释放信号。第二，它的数据信号往往是滞后的。12月16日加息，但收益率曲线可能需要几周甚至几个月才能充分反映新的加息路径。纯数据方法看到的是一个缓慢的偏移，不是一个瞬时的跳变,,而这正是结构断裂检测最怕的场景。

图1展示了这一点。美联储启动加息后，2年期、5年期、10年期收益率、期限溢价、信用利差之间的因果关系网络发生了质变。用论文的原话说：滞后的债券市场动态在货币政策制度边界两侧以质的方式不同。翻译成人话：同样的变量，加息前和加息后的互动模式完全不一样。但如果你只看数据不问文本，你根本不知道这个边界在哪。

二、四步流水线：文本说了算，数据来验货

图2双向交叉验证流水线：LLM从文本提案→VAR统计验证→反过来数据检测器的候选也被LLM核验（来源：论文 Figure 2）

论文的核心设计是一个双向交叉验证流水线，一共四个阶段。奇哥用大白话翻译一下。

表1四阶段流水线概览

Stage A: LLM读文本。把FOMC会议纪要喂给Claude Sonnet 4.6（温度0.2），提示词很简单：判断这次会议前后是否发生了重大货币政策转向。注意，LLM只读会议纪要的文本，完全不看数据。输出是一个候选日期列表。

Stage B: 数据来验货。LLM说2015年12月拐了，但口说无凭。这一阶段取出12月前后的14个宏观变量（国债收益率、信用利差、MOVE波动率指数、CPI、失业率等），跑一个VAR自助法似然比检验。简单说就是：把这些变量拆成拐点前和拐点后两段，算它们的互动模式是否真的有结构性差异。用500次残差自助抽样，p值小于0.05才算通过。

Stage C: 反向验证。前面是文本说、数据验。这一层反过来：用四个不同的纯数据检测器（PELT、二分分割、Bai-Perron、PCMCI）各自独立扫描数据找候选拐点，然后把每个候选点丢给LLM，让它用一条更宽松的提示词检查：这两次FOMC会议前后，有没有任何实质性的货币政策内容？宽松提示词的设计非常关键。论文发现，如果用严格提示词（要求必须是重大转向），会丢掉两个重要拐点,2021年3月美联储点阵图首次显示2023年加息预期，和2023年3月硅谷银行危机期间的加息。宽松提示词保住了这两个锚点。

Stage D: 合并去重。文本通道的结果和数据通道的结果取并集，去掉重复的，输出最终拐点列表。

三、26个拐点，踩中了23个

表2各方法F1分数对比：纯文本通道0.82，纯数据通道最高0.68，交叉验证+PCMCI达到0.82

表2是整篇论文最核心的数据。几个数字值得盯着看。

单独用LLM读文本，不靠任何数据支撑，F1就已经是0.82。26个锚点里踩中了20个。平均检测延迟只有+3天。大部分拐点,,2010年到2024年之间的量化宽松、加息、缩表、新冠紧急降息,,都是在FOMC公告当天就被抓到了。

单独用数据方法呢？PELT 0.46，BinSeg 0.51，Bai-Perron 0.47，PCMCI 0.46。没有一个超过0.68。差距将近20个百分点。

把两路合并之后，交叉验证+PCMCI达到了0.82,,和纯LLM持平，但比纯数据通道最高的0.68高出了14个百分点。PCMCI单独跑的时候只能打中9个锚点，加上LLM认可之后打中了23个。这个0.46到0.82的跨越，完全来自文本通道的贡献。

论文还特别分析了一个有趣的细节。纯LLM漏掉了6个拐点。其中两个,,2021年3月点阵图显示加息和2023年3月硅谷银行危机期间的加息,,并不发生在常规FOMC会议上，而是散落在会议之间的经济预测摘要和危机应对声明中。数据通道在这两个点上捡到了。这意味着文本和数据并不是冗余的，它们是互补的。文本擅长抓有预谋、有公告的政策拐点，数据擅长抓散落在非正式文件中、隐藏在价格波动中的异常。两者结合的效果超过了各自单独。

四、最诚实的地方：这篇论文没有硬吹LLM

奇哥特别喜欢这篇论文的一个品质：它非常清楚自己用了LLM的什么能力，也清楚LLM在这里不是万能的。

LLM在Stage A里做的事其实很简单：读文本，输出一个判断。没有多轮推理，没有Agent调用工具，没有RAG检索外部知识。就是Anthropic Claude Sonnet 4.6，temperature 0.2，一条提示词。论文作者对此毫不遮掩，甚至把提示词全文放在了图3和图4里。

那为什么效果还这么好？因为LLM最擅长的一件事，恰好是制度转换检测最缺的东西,,从非结构化文本中提取高层语义判断。你不需要让LLM预测收益率，那太难了。你只需要让它回答一个问题：这篇会议纪要是鸽还是鹰？和上一篇相比有没有明显变化？这恰好是语言模型最舒服的工作区间。

论文的另一个诚实之处是，它的主要贡献声明不是我们超越了所有方法，而是我们把文本信号纳入了检测流程，并且证明这种纳入是稳健的。四个可互换的数据检测器在装上文本通道之后，F1全部超出了最强的纯数据基线。这说明文本的价值是通用的，不依赖于某个特定的检测算法。

项目代码也体现了这种诚实。整个仓库是零API,,所有LLM的判断结果都已经缓存好了，不需要任何API密钥也不需要联网，下载下来就能跑。Table1到Table4的复现脚本一共就四个Python文件，加上Figure 1的一个Jupyter Notebook。26个基准锚点单独存成了一个CSV文件，每一个都附带了从federalreserve.gov官网核实过的原始来源。

五、总结

回到开头那个问题。美联储2015年12月加息这件事，纯数据方法可能要到2016年2月才能确认这是一个制度拐点。但FOMC会议纪要在2015年10月就已经开始铺垫了。中间的三个月，就是信息差的价值。

这篇论文做对了两件事。第一，它没有试图让LLM做超出能力范围的事。不让LLM预测价格，只让它判断政策立场的文本信号。第二，它没有把希望全部押在LLM上。每一个LLM的判断都经过了统计检验的交叉验证。反过来，每一个数据检测器的发现也会反过来找文本证据。你说是，我要验。我说是，你也要验。

它的局限也很明显。LLM只用了Claude Sonnet 4.6一个模型，没有做模型之间的对比，不确定是否所有的LLM都有同等级别的FOMC纪要理解能力。锚点列表本身是由另一个LLM（GPT-5.5）提议、再由作者手动验证的，存在一定的主观性。另外，14个变量的面版虽然比单变量方法强，但仍然高度简化了真实的宏观环境。

但这不妨碍它给出一条清晰的方法论方向：金融领域有很多问题，数据只能告诉你一部分答案，文本里藏着另一部分。把两路拼在一起，比各自单干要好。这个框架不限于美联储，日本央行、欧央行、中国人民银行的会议纪要同样适用。也不限于货币政策，财报电话会、监管公告、信用评级报告，任何需要从非结构化文本中嗅出拐点的场景，都可以复用这个流水线。