乐于分享
好东西不私藏

网络风险溢价的来源:AI解开网络安全与股票回报的谜题

网络风险溢价的来源:AI解开网络安全与股票回报的谜题

论文《Disentangling the sources of cyber risk premia》(2026年2月3日)用最前沿的机器学习技术,首次把企业年报里的“网络安全”文字拆解成可量化的风险分数,并证明:网络风险越高的公司,股票长期回报反而越高

1. 引言:网络风险到底是成本还是机会?

网络攻击越来越频繁,网络保险和安全解决方案成本高昂,但市场到底怎么给这些风险定价?这是个老大难问题。

作者的核心创新:用自然语言处理(NLP)+机器学习,把企业10-K年报(美国上市公司年度报告)里的文字转化成“网络风险分数”,再结合资产定价模型,看这些分数能不能解释股票回报。

数据覆盖:2007年1月至2023年12月,7079家美股公司,每月回报、财务比率、行业分布一应俱全。

关键发现(提前剧透):

  • 他们从MITRE ATT&CK(全球最权威的网络攻击知识库)中提炼出4大类网络威胁
  • 高网络风险分数的股票组合,年化超额回报显著为正
  • 长短仓“网络风险因子”在所有主流因子模型中都稳健存在,还能显著提升定价能力。
  • 市场其实不区分具体网络风险类型,而是把它们当成一个整体的“聚合网络风险”来定价。

2. 文献回顾

2.1 文本情感分析与金融应用

论文回顾了从Antweiler & Frank(2004)到Hassan et al.(2019)、Sautner et al.(2023)的一系列工作:文本能预测市场回报、政治风险、气候风险等。

重点介绍了Paragraph Vector (doc2vec)模型(Le & Mikolov, 2014),以及它在10-K分析中的应用(Adosoglou et al., 2021;Calomiris & Mamaysky, 2019)。

2.2 网络风险与股票回报

  • Jamilov et al. (2023):用词典法测网络风险,证明高风险公司期权保护成本更高。
  • Florackis et al. (2023):基于10-K“Item 1.A风险因素”部分的余弦相似度,构建网络风险指标,高风险组合年化溢价8.3%。
  • Celeny & Maréchal (2023):用doc2vec+MITRE ATT&CK,构建整体网络风险分数,高风险组合年化超额回报高达18.72%!

本论文是在Celeny & Maréchal (2023)基础上升级:不再只给一个总分,而是拆解成4个子分数,试图回答“不同网络风险类型是否被市场区别定价?”

3. 数据与方法

3.1-3.2 数据来源

市场数据:CRSP + Compustat(WRDS)。
文本数据:SEC Edgar数据库的6.5万份10-K年报(平均每家公司2.73份)。

3.3 MITRE ATT&CK知识库

全球网络安全“圣经”,包含14个战术(Tactics)、785个子技术(Sub-techniques)。作者以此作为“网络威胁词典”。

3.4 网络风险分数构建

预处理:清洗10-K文本 → 切成约40词的段落(平均每份报告640个段落)。
doc2vec模型:用预训练好的Paragraph Vector把每一段文字转成向量。
余弦相似度:计算每一段10-K文字与MITRE ATT&CK子技术的相似度。
聚类降维:用Louvain方法把14个战术聚成4个超级战术(Super-tactics):
  • 准备与侦察(Preparation and Reconnaissance)
  • 持久化与规避(Persistence and Evasion)
  • 凭证移动(Credential Movement)
  • 命令与数据操纵(Command and Data Manipulation)
分数计算:每份10-K的子分数 = 该类别下最高相似度段落的平均值(取前99%)。
额外分数:整体网络风险分数 + 网络情感分数(加入“风险/不确定性”词典)。

3.5-3.6 资产定价检验

  • 单变量排序:按网络分数分成5个组合。
  • 双变量排序:控制规模、账面市值比、市场beta。
  • Fama-MacBeth横截面回归。
  • 时间序列GRS检验 + Barillas & Shanken (2018)贝叶斯因子选择。

4. 主要结果

4.1 聚类结果

成功把14个战术聚成4个逻辑清晰的超级战术,异质性低、平衡性好。

4.2 网络分数的统计特征

  • 分数随时间缓慢上升(2007-2023年增长0.04)。
  • 行业差异显著:商业设备、电信传输行业分数最高。
  • 各子分数高度相关,但与传统财务特征几乎不相关(最高相关系数仅0.36,与1.A节长度)。

4.3 网络分数能预测真实网络事件

用Logistic回归预测10-K发布后12个月内8-K中出现“cyber”一词:

  • 整体分数系数11.65(1%显著)。
  • 准备与侦察子分数预测能力最强(系数13.49)。
  • 分数从0.5提高到0.6,网络事件披露概率提升约7.3%。

4.4 网络分数独立于其他特征

多变量回归显示:

  • 即使加入可读性、风险因素长度、员工/市值比等变量,网络分数仍高度显著。
  • 不同子分数的回归系数符号和显著性不同,说明它们捕捉的是不同维度的风险。

4.5 投资组合表现

  • 单变量排序:5个组合的超额回报随网络分数单调递增,发现得分最高的P5组平均月超额收益达1.44%,远高于低风险组的0.82%。
  • 长短仓(P5-P1)年化Alpha在5-10%水平显著,经FF5、q-factor等模型检验仍稳健。
  • 双变量排序:控制规模、价值、动量后,网络溢价依然存在。
  • 横截面回归:网络子分数风险溢价在5%水平显著。
  • 因子定价能力:加入网络因子后,GRS统计量显著下降;Barillas-Shanken贝叶斯方法显示,最优因子组合必然包含网络因子

5. 结论与启示

论文最核心的结论有三点:

  • 网络风险是有价的:投资者要求补偿,表现为正的风险溢价。
  • AI能比人类更精准地读懂年报:doc2vec+MITRE ATT&CK的方法远超传统词典法。
  • 市场目前还比较“粗放”:它把所有网络风险当成一回事,没有精细区分不同攻击路径。

对投资者的启示

  • 未来可以构建“网络风险因子”ETF,长期持有高网络风险(但基本面健康)的公司。
  • 监管机构和公司应更主动披露具体网络威胁类型,帮助市场更高效定价。
  • 随着SEC强制网络事件8-K披露(2024年起),网络风险分数的预测能力有望进一步验证。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6173935

PDF已更新,更多策略、资讯⬇️

欢迎加入:学术界的Alpha