AI与量化(23):缺失的金融数据(2)

学术文章评析

（二十九）

《AI与量化（23）：缺失的金融数据（2）》

本期

导览

本文继续介绍论文《缺失的金融数据》(Missing Financial Data)第 2 章：模型(Model)和第 3 章：特质中的因子结构(Factor structure in Characteristics)。

我们在上一篇公众号中介绍了 Bryzgalova 等四位学者（BLLP）在2025年正式发表的论文《遗失的金融数据》，并且讨论了这篇文章的第一章，今天我们将分析这篇论文的第 2 章和第 3 章。

第 2 章模型(Model)前面两节的是本章核心内容，其主要目的就是利用公司特质在截面和时序上的信息，搭建一套能处理任意复杂缺失模式的稳健填补模型。这个模型需要解决两个核心的问题：

充分利用所有可用信息，避免遗漏变量偏误；
确保在缺失数据存在的情况下，模型在未观测数据上依然有效。

现在我们来看本文的模型构建构成。公司特质涉及三个维度：个股维度、时间维度以及特质维度。BLLP 通过先处理截面信息再处理时序信息方式进行建模。

在截面信息的分析中，作者首先将时点截面上的公司特质矩阵建模为一个潜存因子模型(latent factor model)，由此将其分解为共同成分（因子结构），以及特异残差。当存在缺失值的情况，他们沿用 Xiong/Pelger (2023) 的方法估计了特质协方差矩阵，这里矩阵上标 XS 是截面(cross-sectional)的英文缩写。然后通过特征值分解得到载荷，接下来通过线性回归得到因子。为了解决缺失数据导致的高方差，作者采用岭回归（岭参数）进行正则化，在偏差和方差之间进行平衡。上述分析是在每个时点单独进行估计，所以称之为局部模型(local model)，作为比较，作者还引入了假设载荷时不变的全局模型 (global model)，后者需要使用到全部时点的样本。

在对截面信息建模完毕之后，BLLP 把截面信息和时序信息结合起来，并且根据时序自回归模型的启发，他们提出了后向模型截面(Backward-XS)和后向前向截面模型(Backward-forward-XS)。沿用文章的符号，后面我们分别用 B-XS 和 BF-XS 表示它们。在这两个模型中，使用三组变量作为协变量：截面共同成分、滞后一期特质值以及滞后一期残差；而后者则在这三组变量基础上加上两组领先协变量：领先一期特质值以及滞后一期残差。显然，BF-XS 使用到未来信息，从而带入了前瞻偏差(look-ahead bias)。有了这些解释协变量，我们可以在时点的公司特质和协变量之间通过线性回归得到估计系数，进而使用这个线性回归进行缺失值的差补。

综合上述分析，BLLP 通过下面的表 1（原文表 2）汇总了七种插补缺失值的方法。注意所有这些估计方法都有局部模型和全局模型两个版本。

表 1 不同的插补方法

在对缺失值估计进行建模之后，作者在 2.3 节讨论了模型假设和缺失模式是否时适配。分析结果表明，基于截面信息的潜存因子模型是合适的，它可以允许在时间、特质、个股层面上缺失模式的各种异质性，同时让缺失值依赖于潜存因子和过去观测值。

2.4 节讨论本文提出的方法与学术文献中其他方法的联系，以及模型在实际应用层面的问题。在备选方法方面，Freyberger 等(FNW, 2025)的方法只是用到始终可观测的特质子集，而 BLLP 的方法还利用了所有部分观测的特质信息，因此在信息集上是比 FNW 的分析更大。Chen/McCoy (2024)使用期望最大化(expectation maximization/EM)算法来填补缺失值。不过这种方法需要假设正态分布，而且相对而言不大适用于高维的数据。另外，我们还可以使用机器学习的方法，不过这种方法通常需要依赖随机掩码，这就不大设用于具有系统性缺失模式的数据。

在实际应用方法，BLLP 指出局部后向截面模型是避免前瞻偏差的最佳选择，全局模型可能精度更高，但是有可能会引入偏差。考虑到稳健性的要求，在实务中我们可以通过滚动窗口或递归窗口的方法，从而在使用更多数据的同时避免前瞻偏差。

在 2.5 节中，作者讨论了为何使用排名分位数而不是原始特质值进行建模。使用中心化秩分位数的好处是可以处理异常值，同时实现截面和时序上的平稳性。而且，我们可以对每个特质估计实证密度函数，这样就能够把排名的分位数映射回原始特质值。此外，在模型中使用排名并不会影响到因子结构的识别，而且实证分析也表明基于排名的方法优于直接对原始特质值进行建模。

第 2 章最后一节定义了评估模型的指标以及样本外检验的方法。在评估指标上，作者使用均方根误差(RMSE)和相对截面中位数差补方法的解释变异度。在样本外检验方案上，文章提出了如下三种验码方式：

(1). 完全随机缺失(MCAR)：随机验码 10% 的观测值；

(2). 块状掩码(Block)：掩码长度为一年的连续块，其中 40% 的块位于样本开始端，模拟实际缺失模式；

(3). 逻辑掩码：使用我们在上篇公众号文章中的逻辑回归模型生成掩码概率，由此模拟真实的缺失模式，包括期初缺失和期中缺失。

第 3 章特质中的因子结构(Factor structure in Characteristics)的主要内容是通过实证方法分析了公司特质能否用某个低维因子结构来刻画。换句话说，就是用数据来证明第 2 章基于潜存因子模型的缺失值估计方法是可靠的。就此，BLLP 通过分析特质协方差矩阵的特征值、因子数量的选择、因子载荷的时变性以及因子的经济含义，证明了截面特质数据具有稳健的因子结构，这样就给插补模型提供了坚实的基础。

在 3.1 节中，作者通过分析特质协方差矩阵的特征值，并结合样本外的表现，确定了最优的因子数量和正则化参数。特征值呈现典型的 L 形曲线，其中前四个因子为强因子，它们可以解释大部分特质数据中的变异；第 5 至第 20 个因子为弱因子，它们贡献较小但仍包含有用信息。在没有正则化的情形中，MCAR 和块状掩码可以得出 7 个因子最优，同时；使用逻辑掩码则表明前 3 个因子最优。无论使用何种样本外检验方案，超过 7 个因子就会导致过拟合，样本外下降。当使用正则化时，弱因子的信息可以得到利用，同时因子数量增加至 20 也不会不过拟合。MCAR 和块状掩码下可以提升至约 0.55，逻辑掩码下则提升至约 0.4。基于上述分析结果，在后续分析中，作者在模型采用使用个因子，同时岭参数。

作者在 3.2 节中比较了局部因子模型（允许载荷随时间可变）与全局因子模型（假设载荷恒定）之间的差异。分析表明因子载荷在时间上高度稳定，这就意味着使用恒定载荷是合理的，全局因子模型可以很好地近似局部因子模型，这就为使用全局模型提供了依据。

3.3 节对因子载荷进行了解释。为了实现这个研究目的，作者使用组套索(group lasso)在特质类别层面进行稀疏化，由此揭示了因子的经济含义。分析的主要结果如下：

(1). 因子 1 在盈利能力、价值和交易摩擦这些特质上均有载荷，可以捕捉这些特质类别之间的相关性；

(2). 因子 2 主要在价值因子上有载荷；

(3). 因子 3/5/7 捕捉到盈利能力类别特质的不同依赖关系，由此体现盈利能力特质之间的多空权重差异；

(4). 因子 4/6/10 和交易摩擦类的特质有关；

(5). 因子 8 会载荷到历史收益（动量）类特质上；

(6). 因子 9 主要载荷到无形资产类特质上。

上述分析表明特质因子具有清晰的经济解释，这就验证了第 2 章通过潜存因子建模估计缺失值的方法不仅是合理的，而且是可以解释的。

参考文献

Bryzgalova, S., S. Lerner, M. Lettau, and M. Pelger. 2025. Missing financial data. Review of Financial Studies 38(3):803–82.

Chen, A., and J. McCoy. 2024. Missing values and the dimensionality of expected returns. Journal of Financial Economics 155, 103815.

Freyberger, J., B. Hoppner, A. Neuhierl, and M. Weber. 2024. Missing data in asset pricing panels. Review of Financial Studies 38(3): 760-802.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

公司简介

我们是一家从事国内二级市场量化交易的私募公司，团队成员全部毕业于清北复交国内顶尖学府，企业文化年轻开放。