核心观点
人工智能105:基于筹码分层结构的端到端AI因子
筹码分布反映市场参与者在不同成本区间上的存量持仓结构,是刻画投资者盈亏状态、交易摩擦和行为博弈的重要量价特征。本文从筹码龄和投资者类型两个维度构建筹码分层结构,并使用AI模型对其进行端到端建模。实验结果显示,筹码分层结构中蕴含较强的非线性Alpha信息,其中筹码龄分层因子表现最优,2016-12-30至2026-05-29的回测区间内,单因子RankIC达12.3%,多头组年化超额32.5%。进一步将筹码结构因子与基准AI因子合成构建中证1000指数增强组合,相同回测区间内年化超额收益21.2%,信息比率3.53,两项指标相比基准因子分别提升2.2 pct、0.24。
实验方法:基于CNN+GRU对筹码分层结构进行端到端建模
本文尝试利用AI模型对筹码分布的精细结构进行端到端建模,其中:(1)特征端:基于VWAP中心三角分布换手递推法估算筹码整体分布,并进一步根据筹码留存时间、筹码交易订单大小拆解筹码分布中的筹码龄分层和投资者类型分层结构特征。(2)模型端:将筹码分布映射至相对当前股价的价格轴,利用CNN+GRU模型进行端到端建模,其中CNN用于提取单日筹码分布的价格形态特征,GRU用于刻画筹码结构在时间维度上的动态变化。
实验结果:端到端因子多头表现较优,相比人工构造特征有增量
实验结果显示:(1)筹码龄分层端到端因子表现优于投资者类型分层因子,前者多头组收益高于日K线、周K线等传统AI量价模型,且相关性较低。(2)对比筹码龄分层端到端因子与人工构造筹码特征因子,前者IC指标及多头超额均更优。(3)消融实验结果显示,剥离筹码龄分层信息或弱化价格分布形态后,因子表现均明显下降,表明筹码分层结构特征与价格形态特征均是端到端建模的有效信息来源。
指增组合测试:筹码结构合成因子整体优于基准AI因子
将筹码结构因子加入基准AI合成因子,并构建指数增强组合进行测试,结果表明,在2016-12-30至2026-05-29的回测区间内,加入筹码结构的合成因子RankIC约14.0%,相比基准因子多头超额提升约2.1 pct。同回测区间内,沪深300、中证500和中证1000指数增强组合的年化超额收益均有所改善,其中中证1000组合年化超额由19.0%提升至21.2%,信息比由3.29提升至3.53,超额最大回撤由8.5%下降至7.7%。
正文
筹码分布与分层结构
筹码分布是对股票历史成交成本结构的刻画,通常基于成交价格、成交量与换手率等信息,估计当前流通筹码在不同价格区间上的分布状态。与传统量价指标更多关注价格和成交的边际变化不同,筹码分布侧重描述存量持仓的成本位置与结构特征,能够反映市场参与者整体处于浮盈还是浮亏状态,以及不同价格区间潜在的支撑、压力和交易阻力。从投资者行为角度看,盈利筹码可能带来止盈抛压,亏损筹码可能形成惜售或解套压力,筹码结构因此成为理解短期供需变化、交易摩擦和市场博弈状态的重要特征之一。
为细致地刻画筹码结构中蕴含的异质性信息,本研究进一步从两种视角拆解筹码分布的分层结构:其一为按照筹码龄进行分层,将不同历史时期形成并留存至今的筹码加以区分,以刻画新近筹码与长期沉淀筹码在成本结构和交易稳定性上的差异;其二为按照投资者类型分层,通过成交订单金额大小识别散户、中户、大户和机构投资者对应的筹码分布,从资金属性角度描述不同类型投资者的持仓成本和交易行为差异。

本研究尝试从筹码分层结构出发,利用AI模型对其中的高维结构和非线性关系进行端到端建模,使模型能够从高维、非线性的筹码特征中挖掘潜在的Alpha信号。回测结果显示,筹码分层结构因子与传统AI量价端到端因子组合后可较为显著提升业绩。





该分层方式能够刻画不同持有周期筹码在成本区间上的分布差异,其中短龄筹码更反映近期交易资金,长龄筹码则更反映历史沉淀和持仓稳定性。





模型与训练细节
输入特征预处理
完成筹码分层分布的递推估计后,进一步对其进行统一预处理,以保留原始筹码分布中的有效特征。预处理分为以下步骤:
1、价格区间映射:为消除个股绝对价格水平差异,以及保留每日筹码的相对成本结构,将各价格区间取对数后映射到相对当前收盘价[-0.7,0.7]的32个网格内。
2、分层归一化:对于筹码龄分层和订单大小分层结构,保留不同通道之间的相对筹码质量,而不对各通道分别归一化,从而同时保留“不同通道的筹码占比”和“各通道内部的成本分布形态”。
3、压缩分布形状:考虑到筹码分布具有非负、稀疏和局部峰值较高的特点,本文对归一化后的筹码质量取平方根,从而压缩局部极端筹码峰的影响,使模型更加关注筹码分布的整体形态、不同价格区间之间的相对关系以及跨通道结构差异。
模型结构
为同时捕捉每日筹码各分层分布的形状特征,以及筹码结构在时序上的变化,本文将CNN与GRU结合对筹码分层结构进行建模。
模型整体包含两个部分:第一部分使用一维卷积网络提取单日筹码分布在价格维度上的形态特征,例如筹码峰位置、筹码集中区域以及盈利/亏损区间分布;第二部分使用GRU对过去时序窗口内的筹码结构序列进行时序建模,刻画筹码结构随时间的演化特征。模型结构示意图如下。

训练细节

实验结果
因子回测结果
两种筹码分层结构的端到端AI因子回测结果及与日/周/月K线GRU端到端因子表现对比汇总如下。可以发现,两种分层方式中,按筹码龄分层的因子表现较优,RankIC与日/周K线因子相当,多头组年化超额32.5%,信息比4.21,均优于其余因子。
相较而言,投资者类型分层因子表现相对逊色,可能原因如下:
1、本研究基于日度大小单资金流数据拟合不同投资者类型,颗粒度较粗,拟合准确性较低;
2、日度资金流历史数据追溯区间较短,模型训练样本相较筹码龄分层样本较少。



补充实验:与筹码结构特征因子对比
为评估模型对筹码分布结构的端到端建模能力,本节人工构建两组筹码结构相关特征,分别描述每日筹码分布的静态特征和每日筹码流动的动态特征,额外训练两组模型进行对比。两组特征详细构造方式如下。


对照实验选用GRU模型,输入两组特征过去30日的时序数据,其余训练细节与筹码分层结构端到端模型保持一致。因子评估指标对比如下。可以发现,筹码龄分层端到端因子在IC、RankIC和多头超额收益上均优于人工构造的静态筹码分布特征与动态筹码流动特征,说明端到端模型能够从完整筹码分布结构中提取人工指标难以完全刻画的增量信息。


进一步对各因子相关性进行测试。结果表明,筹码龄分层结构端到端因子与人工构造筹码特征因子平均相关性在80%左右,端到端建模相比人工构造特征提取仍有一定增量信息。同时,筹码结构系列因子与其他类型因子相关性平均在50%左右,相关性较低,或可起到有效的互补作用。

消融实验:CNN、分层结构有效性评估
为进一步分析模型设计合理性,设计如下两组消融实验进行对比:
1、筹码分层结构:保持模型结构不变,输入筹码结构不作筹码龄或投资者类型分层;
2、分布形态建模:在输入筹码结构不分层的基础上,在CNN模型输出隐藏层后再对价格区间维度进行平均池化,以破坏CNN沿价格轴提取的形态特征,不对筹码分布在价格维度上的形态特征建模,后续再GRU模型提取时序变化。
筹码龄分层端到端因子及两组消融实验因子回测结果如下。结果表明,从CNN+GRU端到端模型中依次剥离筹码龄分层信息和价格分布形态信息均对因子表现有显著负面影响,可一定程度证明当前筹码分层结构特征处理方式和模型设计的合理性。


因子合成及指增组合测试
综合以上实验结果,本节选取以下两种因子组合方式进行因子合成,并构建指数增强组合进行对比:
1、基准AI合成因子:日K+周K+Alpha158+分钟频特征;
2、基准AI合成因子+筹码合成因子:日K+周K+Alpha158+分钟频特征+筹码龄分层端到端+筹码流动特征;
两组因子的回测结果如下。结果表明,将筹码因子加入因子合成后,IC和RankIC指标无显著变化,而多头组收益有较大提升。


进一步基于两组因子构建指数增强组合。其中组合优化及回测细节如下。

三组指增组合业绩指标对比如下。可以发现,加入筹码因子后的合成因子在三组指增组合上均可提升超额收益表现,其中沪深300、中证1000指增组合超额提升较为明显。




进一步对比中证1000指增组合中两组因子的分区间超额收益,可以发现加入筹码合成因子在过去9个完整年度内,7个年度超额收益均高于基准AI合成因子,提升较为稳定。


总结
本文是人工智能系列第105篇:基于筹码分层结构的AI端到端模型。筹码分布反映市场参与者在不同成本区间上的存量持仓结构,是刻画投资者盈亏状态、交易摩擦和行为博弈的重要量价特征。本文从筹码龄和投资者类型两个维度构建筹码分层结构,并使用AI模型对其进行端到端建模。实验结果显示,筹码分层结构中蕴含较强的非线性Alpha信息,其中筹码龄分层因子表现最优,2016-12-30至2026-05-29的回测区间内,单因子RankIC达12.3%,多头组年化超额32.5%。进一步将筹码结构因子与基准AI因子合成构建中证1000指数增强组合,相同回测区间内年化超额收益21.2%,信息比率3.53,相比基准因子分别提升2.2 pct、0.24。
本文基于CNN+GRU对筹码分层结构进行端到端建模。本研究中尝试利用AI模型对筹码分布的精细结构进行端到端建模,其中:(1)特征端:基于VWAP中心三角分布换手递推法估算筹码整体分布,并进一步根据筹码留存时间、筹码交易订单大小拆解筹码分布中的筹码龄分层和投资者类型分层结构特征。(2)模型端:将筹码分布映射至相对当前股价的价格轴,利用CNN+GRU模型进行端到端建模,其中CNN用于提取单日筹码分布的价格形态特征,GRU用于刻画筹码结构在时间维度上的动态变化。
实验结果显示,端到端因子多头表现较优,相比人工构造特征有增量:(1)筹码龄分层端到端因子表现优于投资者类型分层因子,前者多头组收益高于日K线、周K线等传统AI量价模型,且相关性较低。(2)对比筹码龄分层端到端因子与人工构造筹码特征因子,前者IC指标及多头超额均更优。(3)消融实验结果显示,剥离筹码龄分层信息或弱化价格分布形态后,因子表现均明显下降,表明筹码分层结构特征与价格形态特征均是端到端建模的有效信息来源。
指增组合测试结果表明,筹码结构合成因子整体优于基准AI因子:将筹码结构因子加入基准AI合成因子,并构建指数增强组合进行测试,结果表明,在2016-12-30至2026-05-29的回测区间内,加入筹码结构因子后RankIC约14.0%,相比基准因子多头超额提升约2.1 pct。同回测区间内,沪深300、中证500和中证1000组合的年化超额收益均有所改善,其中中证1000组合年化超额由19.0%提升至21.2%,信息比由3.29提升至3.53,超额最大回撤由8.5%下降至7.7%。
本研究还有以下未尽之处:
1、本研究中基于日度订单大小推测投资者筹码结构,颗粒度较粗,后续可通过日内Level2数据进行精细化建模;
2、未来可尝试基于Transformer等模型结构对筹码分布的原始特征进行端到端建模。
参考文献
Grinblatt, M., and Han, B. (2005). Prospect theory, mental accounting, and momentum. Journal of Financial Economics.
文章来源
研报《金工:基于筹码分层结构的端到端AI因子》2026年6月2日
研究员:何 康 S0570520080004 | BRB318
联系人:浦彦恒 S0570124070069

关注我们

https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/research
▲向上滑动阅览
本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。
本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。
本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。
在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。
本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
夜雨聆风