AI与量化(28):风险溢价的置信度(下)

学术文章评析

（三十四）

《AI与量化（28）：风险溢价的置信度（下）》

本期

导览

本文继续介绍论文《使用机器学习不确定性的置信风险溢价和投资》(Confident Risk Premius and Investments Using Machine Learning Uncertainties)，针对其实证部分（第3章和第4章）展开讨论，并在最后总结该文章对资产定价学术研究和量化投资实践两个方面的启发意义。

如果你是一位量化投资者，每个月你会拿到一堆机器学习模型给出的后市股票收益预报。有的模型告诉你，某只个股会涨5%；另一个模型却说它会跌2%。你该相信哪一个？更棘手的是，即使同一个模型，它对不同股票的预报信心也大相径庭。有些股票的预测值背后是扎实的证据，有些则几乎等同于随机猜测。如果忽略了这种信心的差异，很可能把真金白银投进了“运气”而非“能力”的陷阱。这正是休斯顿大学 Allena 教授在《使用机器学习不确定性的置信风险溢价和投资》这篇论文所要解决的核心问题。在之前的公众号文章中，我们介绍了该论文的理论框架和经济学解释，今天我们将聚焦于它的实证部分（第3章和第4章），看看在实际的美国股市数据中，那些考虑了预测不确定性的策略到底表现如何，以及预报精度本身在模型之间、时序和截面上呈现出什么样的规律。

在第3章中，作者通过系统的实证分析，检验了前面章节提出的理论预估，即利用预报方差信息的置信度高低策略是否真的能够在样本外带来更好的投资表现。

3.1节介绍了文章使用的数据。为了确保实证结果的可信度和可比性，作者使用了美股研究中的经典数据库。整个样本包含从1957年至2020年间超过3万只美国股票，其中包括来自纽交所、美交所和纳斯达克的全部个股，平均每月有超过6千只个股。作者使用了176个预测变量：

个股特质（94个），它们参考了Green等(GHZ, 2017)；
行业属性虚拟变量（74个）；
宏观经济指标（8个），它们参考了Goyal/Welch (2008)。

作者在3.2节模型和参数估计(Models and parameter estimation)介绍了实证分析使用的模型和估计方法。本文比较了下面三种不同复杂度的模型：

相对简单的Lewellen线性模型，其中融合了15个公司特质；
中等复杂度的套索模型（Lasso）；
具有三个隐藏层的神经网络（NN-3），其中分别包含32-16-18 个神经元。

整个样本被划分为训练期、验证期和长达34年的测试期，以确保所有预测都是真正样本外的：

训练样本（18 年，1957-1974）；
验证样本（12 年，1975-1986）；
测试样本（34 年，1987-2020）。

在这些模型的估计中，作者通过最小化训练样本的惩罚似然函数估计参数，用最大化验证样本的估计超参数。在每年年底采用递归重新估计的方式估计模型，其中训练样本会不断增加，而验证样本则采用滚动窗口方式。

接着，作者在3.3节定义了下面三组模型表现的指标(Definition of performance metrics)。首先是事前置信度（Ex Ante Confidence, EC）：

其中表示模型下股票在时间（对于时期）的风险溢价预测，表示相应的预测方差。这两个量均使用本文在第1章推导的贝叶斯后验密度进行估计。

其次，作者使用个股过去的特质波动率(idosyncratic volatility, idiovol)作为预测精度的替代度量，这样就得到基于Ivol的置信度：

其中表示股票在时间的过去特质波动率。这个置信度用于构建低波基准策略。

第三，作者使用了样本外和样本外均方误差(MSE)这两个统计精度指标来衡量模型绩效：

在每一种模型下，作者在3.4节中构建了如下几种投资策略。

传统的高低策略(HL)：根据个股下个月收益预测将股票排序为十分位组，令和分别代表最低和最高收益预测的十分位数组。在中持有多头仓位，在中持有空头仓位。
本文分析重点的置信度高低策略(Confident-HL)：十分位数组和进一步根据事前置信度被（双重）排序为子十分位数组，分别为和。（）和（）代表来自和中具有最高（最低）置信度的股票子集。在中持有多头仓位，在中持有空头仓位。
作为对照的低置信度高低策略(Low-Confident-HL)：作为置信度高低策略的对比，本策略在事前置信度最低的子集和分别多头和空头仓位。

为了更公平地评估置信度高低策略的表现，本文还构建了下面两个基准策略。

只关注预测值大小但忽略精度的百分位高低策略（1% HL）：在收益预测最高的前股票中持有多头仓位，在收益预测最低的后股票中持有空头仓位。
基于特质波动的低波策略（Low Ivol）：本策略模仿了上面置信度高低策略，只是使用波动率置信度替换了事前置信度。

所有策略都分别采用等权重(equal weighting, EW)和价值加权(value weighting, VW)两种方式来计算收益。

3.5节报告了本文的主要实证结果。这些结果非常清晰且一致地表明，置信度高低策略在所有模型和几乎所有比较维度上都显著优于其他策略。以套索模型下的价值加权策略为例，文章在平均月收益上得到如下的结果：

置信度高低策略：2.51%；
传统高低策略：0.89%（差 1.63%）；
低置信度高低策略：0.42%（差 2.09%）；
百分位高低策略：1.34%（差 1.17%）；
低波高低策略：0.99%（差 1.52%）。

在夏普率上，套索模型下置信度高低策略达比传统高低策略高出80%。

同时在不同模型上，置信度高低策略也一致地好于传统高低策略。还是以价值加权策略为例，三层神经网络模型下，上述两个策略的月收益差1.37%；而Lewellen模型下两者的差异则有1.28%。与此同时，三层网络模型中置信度高低策略比传统高低策略高出31%，Lewellen模型中则高出44%。

值得注意的是，低置信度策略的表现几乎在所有情形下都是最差的。这反过来验证了作者的核心直觉：那些预报不精确的股票，即使预测值看起来很极端，也很可能只是因为误差而被错误地归类，实际投资它们并不会带来好的收益。

作者还引入了一个有趣的度量指标——置信度高低策略和低置信度高低策略两者之间的平方夏普率的差异，用来量化“纳入置信区间信息”后所带来的价值。这个指标在神经网络模型下最大，在套索下次之，在Lewellen模型下最小。这一顺序恰好与模型偏误程度相反：越复杂的模型偏误越小，预报精度信息也就越有价值。这与第2章中提出的理论预估完全吻合。

为了确保这些发现不是由某些特定样本或条件驱动的，作者进行了一系列稳健性检验。即使排除了微盘股，只关注市值较大的股票，置信度高低策略的优势依然显著存在。在考虑下行风险时，无论是最大回撤、Omega比率还是Sortino比率，置信度高低策略都同样优于基准。尽管该策略因为持股更集中而换手率更高，但在扣除合理的交易成本后，其净收益仍然显著高于传统策略。附录中还考察了其他几种利用预报方差的方式，例如对不精确股票降权而非直接剔除，或者使用完整的协方差结构进行均值方差优化。这些策略也都优于传统方法，但置信度高低策略的表现仍然是最好的。

在本章最后的3.6节，作者直接检验了第2章提出的核心机制：事前的预报方差能否预估事后的预报误差。文章将每个月将所有股票按预报精度排序分成十个组，然后计算每组在实际中的均方误差。结果呈现出清晰的单调关系：事前预报越精确的组，事后的预报误差就越小。在最精确的十分位组，神经网络的预报均方误差只有0.74%，而在最不精确的组，这个数字高达11.8%。而且，这种单调关系的陡峭程度也随着模型复杂度的增加而变得更加明显，这再次印证了“模型越精确，预报方差信息越有用”的结论。

第3章通过大量细致的实证工作，令人信服地证明了：在股票收益预报中，知道“自己不知道什么”和知道“自己知道什么”同样重要。那些能够同时提供预测值和预报精度的模型，如果被恰当地用于策略构建，可以带来显著且稳健的投资收益改善。

在第4章中，作者将分析视角从策略表现转向了预报方差本身的变化规律，试图回答两个问题：不同模型的预报方差之间是否存在一致性？同一个模型的预报方差又是如何随时间以及在股票之间变化的？

首先，作者考察了三种模型预报方差之间的相关性。他在每个月上计算Lewellen模型、套索和神经网络三者预报方差的两两秩相关系数，然后在整个34年的样本外期间取平均值。结果发现，Lewellen和套索的预报方差之间存在中等程度的相关性，约为36%。但神经网络与另外两个模型的相关性就低得多了：与套索只有不到11%，与Lewellen更是不到7%。这意味着，不同模型擅长精确预报的股票并不是同一批。比如，Lewellen可能在纺织、面料这类传统行业的股票上预报得更准，而神经网络却在其他类型的股票上表现更好。这一发现与说明试图用一个统一的资产定价模型来精确预报所有股票的风险溢价，可能是不正确的。这个结论和Cong等人(2024)是一致的，我们可能需要模型组合或模型选择来针对不同股票获得更精确的预报。

接下来作者聚焦于神经网络的预报方差，分别从时序和截面两个维度进行深入分析。在时间维度上，作者每月计算所有股票预报标准误的平均值，并将其与重大经济事件对应起来。在整个样本期内，平均标准误大约是1.34%。但每当市场遭遇重大冲击时，这个数字就会急剧攀升。例如，在雷曼兄弟破产后的几个月里，平均标准误达到了2.61%，峰值超过5%；而在2020年新冠疫情爆发初期，平均标准误更是飙升至3.80%，峰值达到5.54%。其他如黑色星期一、911袭击、海湾战争、俄罗斯违约等事件也都伴随着预估精度的显著下降。作者解释说，危机时期许多常见的预测变量——比如公司规模、股价趋势、市场波动率等——会大幅偏离它们平时的分布，基于这些异常数据做出的预报自然也就不那么可靠了。反过来看，这也意味着预报标准误本身可以作为一个衡量市场不确定性的有效指标。

在截面上，作者进一步分析了那些预报最精确的股票具有什么样的特质。他发现，进入最高置信度十分位数组的股票并不是均匀分布的：小盘股占了很大比例，高账面市值比（也就是价值型股票）和流动性差的股票也明显偏多。这些特质在传统金融文献中通常与较高的预期收益联系在一起。这说明对于神经网络而言，预报水平和预报精度之间存在正相关关系——那些本来就被模型认为会有较高收益的股票，往往也是模型预报得比较有信心的股票。这有助于解释为什么神经网络在多头端的收益通常比空头端更大。不过，值得注意的是，最高置信度组中也包含了相当比例的大盘股股票，大约有三分之一的股票的市值高于全样本中位数。因此，即便只考虑大市值股票，置信度高低策略仍然能够产生可观的收益。

第4章揭示了一个重要的事实：预报方差并不是一个静态的、与模型无关的量。它在不同模型之间表现出显著的异质性，在时序上对市场事件高度敏感，在截面上又与股票的特质紧密相关。这些发现不仅加深了我们对机器学习预报行为的理解，也为实践中如何选择模型、如何管理不确定性和如何构建投资组合提供了有价值的参考。

本文对资产定价的学术研究和量化投资的实践都有重要的启发意义。从学术角度来说，本文表明预报精度和预测值同样重要。传统的点预测导向忽略了估计不确定性，可能导致误导性的策略评估。其次，不同模型擅长预测不同的股票，本文三个模型预估方差相关性低意味着模型组合或模型选择有很大的潜力。第三，既然预估方差能预测事后误差，那么它也可以作为构建异象因子的新维度。

对量化投资而言，首先，投资者构建策略时需要过滤掉置信度低的股票：即使是极端的收益预测，如果精度太低，也应该放弃。这能显著提升夏普比率和降低回撤。其次，投资者需要实时监控预报标准误：当市场进入危机模式（如2020年3月），整个市场的预报精度大幅下降，此时应降低杠杆或转向更稳健的资产。第三，针对不同股票选择不同模型：如果发现某个模型在特定行业预测更准，不妨在该行业使用该模型，而在其他行业使用其他的模型。

这篇论文给我们的最大启示或许并不是某个具体的数字或策略，而是一种思维方式的转变：在充满不确定性的金融市场中，知道自己不知道什么和知道自己知道什么同等重要，甚至更为重要。机器学习模型给了我们强大的预报能力，但只有当我们同时量化了这种预报的可靠性，我们才能真正负责任地使用它。正如统计学家 George Box 所说：“所有模型都是错的，但有些是有用的。” 本文告诉我们：“有用性”不仅体现在预测值的高低，更体现在我们能否对其置信度做出可靠的判断。

参考文献

Allena, Rohit. 2026. Confident risk premius and investments using machine learning uncertainties. Review of Financial Studies 38(5): 1463-1505.

Cong, Lin W., G. Feng, J. He, and Y. Wang. 2025, Mosaics of predictability. SSRN.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

公司简介

我们是一家从事国内二级市场量化交易的私募公司，团队成员全部毕业于清北复交国内顶尖学府，企业文化年轻开放。