

「智选精研」项目本篇精选文章为《资产管理中的AI:工具,应用及前沿》第一章《无监督学习I:技术总览》的「从业者简报」。
之后我们将陆续翻译该书其他章节的「从业者简报」,欢迎关注。
Practitioner Briefs - Unsupervised Learning I: Overview of Techniques
翻译:李祎晗,CFA,西交利物浦大学助理教授
审校:许铭,CFA,CFA上海协会理事
作者:Mark Fortune
Practitioner Briefs 原文链接:
https://rpc.cfainstitute.org/sites/default/files/docs/support/rf_aiinassetmanagement_practitioner-briefs_01_unsupervisedlearningi_online.pdf (点击文末“阅读原文”可查看)
AI in Asset Management Chapter 1: Unsupervised Learning I: Overview of Techniques 原文链接:https://rpc.cfainstitute.org/research/foundation/2025/chapter-1-unsupervised-learning-techniques
无监督学习I:技术总览

无监督学习(Unsupervised Learning)是机器学习(ML)领域内的一个分支,它可以在缺乏数据标签[1]的情况下帮助金融分析师和投资者发现数据中的隐藏特征。传统的金融模型高度依赖于数据标签,但是在当今高频、高维度的市场环境中,这些数据标签往往不完整、滞后甚至根本无法获得。而无监督学习则可以有效地解决这一问题。在不给定预设结果的情况下,它也可以从数据中识别出潜在模式、相互关系和异常现象。
本章作为《资产管理中的人工智能:工具,应用及前沿》一书中的章节,为金融从业者提供了一份清晰、可操作的无监督学习综述。其内容涵盖聚类[2]、降维[3]、异常检测等多方面,并且解释了这些技术如何在无预先标注结果,即无数据标签的情况下,从金融数据中挖掘隐藏结构与模式。本章节将复杂的机器学习方法转化为浅显易懂、能够直接落地的工具,可用于投资组合构建、市场状态识别、风险监控以及策略优化与迭代等多个领域。
本章面向的读者
本章内容主要面向投资经理、量化研究者、风控人员、投资策略师和数据驱动型的投资者,其中介绍的无监督学习方法可以帮助他们识别数据潜在结构与模式(如资产联动与状态切换)、提升决策质量、并在复杂且数据密集的金融市场中保持领先地位。
本章的现实意义
如今的金融市场波动加剧,数据也越来越复杂,传统的金融模型已经难以满足需求。而本章着重探讨:无监督学习如何在不依赖过时的假设或人工标注数据的前提下,帮助投资者从数据中识别结构与模式并快速适应外部变化。无监督学习是一种能够跟随市场变化不断调整的实用工具,在适当的应用场景下可以让投资策略变得更加灵活与稳健。
本章主要内容
本章从实际出发,介绍如何运用聚类、异常检测、降维等无监督学习方法,在没有数据标签的前提下从海量金融数据中挖掘隐藏信息,来优化投资组合、完善策略设计,并提升快速变化市场环境下的决策质量。
通过具体示例,本章阐述了无监督学习如何在动态且充满不确定性的市场中辅助决策,把前沿的机器学习方法“翻译”成真正可用的投资工具,并给出一套即使没有深厚技术背景也能快速上手的实践操作路径。
“无监督学习能够帮助从业者识别金融数据中隐藏的结构,而这些结构对于投资组合管理和风险管理都可能具有重要价值。” ——Joseph Simonian博士
实际应用
下面介绍无监督学习在金融中的六个主要应用场景,包括投资组合构建、异常检测、市场状态分类等等。
投资组合构建:借助聚类技术,可以将具有相似表现的资产划分在一起,以此来提升投资组合的分散化程度、减少潜在相关性风险[4],并构建更为稳健的组合。
例如,依据波动率和动量趋势对美国股票与国际股票进行分组,而不是用传统的行业或地区分组。这样有助于发现传统分析框架下难以识别的投资分散化机会。
市场状态识别:通过分析宏观信号识别市场状态,从而辅助策略择时和风险敞口调整;同时,借助对市场与经济指标间模式变化的及时识别,例如运行逻辑改变和相关关系改变,来更早发现结构性或宏观经济环境的转折。
例如,可通过对宏观数据进行聚类,提前捕捉市场由“增长主导”向“通胀驱动”状态的切换,而此时央行表态或价格走势可能尚未充分反映这一变化。
信号分类:把估值因子、波动率突破等交易信号按照预测效果来进行聚类分组,有助于提升模型精度并降低信号之间的冗余。
例如,可根据历史夏普比率[5]和稳定性,对数百个alpha信号进行归类,并进一步筛选出最稳健、且与市场状态更匹配的信号,纳入策略模型。
降噪与因子挖掘:借助主成分分析[6](PCA)、t-SNE[7]等降维方法,可以从噪声较多的数据中提炼出最具代表性的信号,识别影响资产收益的关键驱动因素,同时有效降低数据维度和分析复杂度。
例如,可将200余个宏观指标通过PCA压缩为3个主成分,而这3个主成分已足以解释投资组合中约90%的风险暴露信息,从而显著提升模型调优和结果展示的可解释性。
异常检测:异常检测的目的,是在问题真正影响组合表现或风险判断之前,尽早识别出“不寻常”的交易和风险信号。为此可以使用孤立森林[8](Isolation Forest)、局部离群因子[9](LOF)等算法来识别异常值、欺诈行为或极端市场表现。
例如,在一只流动性较差的债券上,如果成交量突然异常放大,LOF可以将这类偏离常态的交易活动及时标记出来,交由人工进一步核查,从而避免其对组合当日损益归因造成误导。
合成数据生成:借助生成式AI模型,可以构建贴近真实市场的情景,用于回测、压力测试以及策略在不同条件下的有效性验证。其价值在于,能够补足真实历史数据中极端场景不足的问题,从而更全面地检验策略韧性。例如,可利用变分自编码器(VAE)生成流动性紧张情景下的假想交易日,并据此评估既有策略在此类合成压力环境中的表现。
实践应用指南
下文将为几类金融关键岗位的从业者提供一份无监督学习应用指南:
岗位 | 关键技术 | 主要用途 | 主要收益 |
投资组合经理 | 聚类、PCA、t-SNE、市场状态(regime)识别 | 资产分组与分类、提升分散化效果、按市场状态进行配置 | 打破传统分类视角,构建更能适应环境变化、分散更充分的组合 |
量化研究员/策略分析师 | 信号聚类、自编码器、VAE、合成数据 | 信号筛选与评估、数据压缩、情景生成 | 提高研究与回测质量,并能在“罕见情形”下更好检验策略 |
合规/监控人员 | LOF、DBSCAN、聚类 | 欺诈识别、行为模式聚类、异常评分 | 以更少的误报实现对异常行为的实时监测 |
数据科学家 /AI团队成员 | PCA、ICA、混合建模、聚类效果评估 | 数据与模型预处理、潜在特征构造、聚类结果验证 | 将研究方法更顺畅地接入生产流程,打通建模与投研应用之间的衔接。 |
落地实施
无监督学习技术可以很自然地嵌入到现有的工作流程之中;聚类方法可以优化资产分配,异常检测有助于加强风险监控与预警,降维技术则可以简化复杂的数据从而提高分析效率。在实践中,这些工具无需一次性全面铺开,而是可逐步采用,从而不断提升分析能力并完善方法体系。
附录:关键指标
监督学习有真实标签,能直接借助准确率、召回率等指标来评测模型效果,而无监督学习却没有,想直接评估模型效果会更困难,这是监督学习和无监督学习最大的区别之一。不过,借助以下三个尤为实用且重要的指标,我们也能够评估单个聚类结果的质量、比较不同聚类的结果、并衡量降维过程中数据结构的可解释程度。
轮廓系数(Silhouette score):轮廓系数用于评估聚类结果的内部质量,换句话说,它可以直接评价同一簇内部的紧密程度和簇间分离度,从而判断该聚类效果的好坏。其取值范围通常在-1到1之间。好的聚类应该做到簇内部的点尽可能紧密,而不同簇之间则尽可能分离,即系数接近1。当系数接近0时则表示簇之间区分不明显。若小于0则意味部分样本可能被错分簇。它为评估资产、信号或宏观指标的分组聚类效果提供了方法。
调整兰德指数(Adjusted Rand Index):ARI是一种用来评估“两个聚类结果有多相似”的方法。取值通常为-1到1,数值越接近1则表示两种聚类的结果越相似,反之越接近于0,为负值则代表二者的相似水平低于随机情形。在不断变化的市场环境下,可以借助该指标来评判不同时间、不同情形或不同设计下聚类结果的一致性,从而间接评估聚类方法的稳定性。
解释方差(Explained variance):这一指标衡量的是,每个主成分对原始数据总体方差解释的比例,也就是它对数据整体变化的贡献有多大,是降维分析中的关键指标。借助它,我们可以判断哪些主成分最重要,从而识别推动收益率曲线变动的主要因素,或将大量宏观变量压缩为少数几个更具代表性的核心因子。
注释:
数据标签:指的是每个样本对应的已知预测结果,也就是希望模型学习和预测的目标(如是否违约、未来涨跌方向),监督学习依靠标签来训练模型;无监督学习只有特征数据,没有现成标签。
聚类:指的是在没有标签的情况下,按照样本之间的相似性把数据自动分成若干组,使得其组内尽可能相似、组间则尽可能不同。
降维:指的是在尽可能多的保留数据信息的前提下,用更少的变量来表示原始高维数据。
相关性风险:指的是由于金融资产中的多个因子相互关联而引起的不利变化,比如一个资产下跌伴随组合内另一资产下跌,使得风险扩大。
夏普比率:是投资组合的超额回报与投资组合回报率的标准差的比值,用于衡量承担单位风险的情况下,策略能够获得的超额收益。
主成分分析:是一种通过线性变换将高维数据映射到低维空间,同时尽可能保留数据方差的降维方法。
t-SNE:是一种主要用于可视化的非线性降维方法,主要思想是保留样本的局部邻近关系。
孤立森林:是一种异常检测方法,利用异常点更容易被孤立的特点,通过随机切分数据来快速识别离群样本。
局部离群因子:是一种异常检测方法,通过比较某个点所在位置的“拥挤程度”和它附近其他点的“拥挤程度”,来判断这个点是否异常孤立。
声 明
本文章仅供读者阅读参考,并非官方译文,若与英文原文存在不一致之处,以英文原版为准。
英文原文版权归CFA Institute所有。CFA上海协会经CFA Institute授权,对《从业者简报-人工智能在资产管理中的应用:工具、实践与前沿》进行翻译和转载。CFA Institute保留所有相关权利。
「智选精研」项目介绍
CFA上海协会学术研究组计划系统精选CFA Institute所发表的与资本市场及资产管理高度相关的权威文章,通过精准翻译与核心提炼,结合中国市场的实际情况进行拓展分析,形成兼具国际视野与本土实践价值的深度内容。工作成果将通过CFA上海协会微信公众号推送,为协会会员及金融行业从业者提供持续的知识更新。
未来,学术研究组更计划进一步聚焦会员们最为关注的热点主题,组织线下研讨及专题讲座,搭建学术研究与实务领域的交流平台,促进全球智慧与国内从业者需求的深度融合。
我们期待这一项目能成为连接国际前沿理论与上海本土金融实践的知识桥梁,助力会员及从业者在全球化背景下提升专业洞察力。
往期回顾
- END -

CFA Society Shanghai
如果你对此类内容感兴趣
请点击赞或在看让我们知道
也欢迎分享至朋友圈
夜雨聆风