AI Agent 在投研中还有一个常见误区:既然模型需要上下文,那是不是应该把所有历史研究、论文、实验日志、聊天记录都塞进记忆库?直觉上,这似乎合理。没有上下文的 Agent 确实会重复犯错。它可能不知道上周哪个假设已经被证伪,不知道某个因子在某个市场状态下失效,不知道当前组合的风险约束。于是,每次研究都像从零开始。但另一个极端也同样危险:上下文太多,模型会被旧信息拖住。LLM 的注意力机制不会天然判断“这条结论已经过时”。旧报告、旧回测、旧市场环境下的成功经验,如果没有被降权或归档,就会以近似同等权重参与新的推理。于是,模型可能把不该放在一起的信息拼接成一个看似自洽、实则因果断裂的结论。这就是上下文腐烂。投研工作的核心不是存储信息,而是筛选信息。记忆系统不是仓库,而是筛子。一个长期运行的投研 Agent,如果只会记住,不会遗忘,最后会陷入路径依赖。过去成功的方向在记忆库里出现次数多、共现关系强,更容易被检索出来。模型就会不断强化旧方向,生成的新假设越来越像过去的成功案例。这在市场状态稳定时可能看起来不错,但一旦环境切换,系统就会越来越迟钝。因此,研究记忆要设计三件事:第一,压缩。保留有效市场环境、参数敏感性、失效原因、样本外表现,而不是保留所有原始日志。压缩的目的不是省 token,而是提高信息密度。第二,遗忘。每条研究结论都应该有有效期。因子、假设、市场状态判断,都需要 TTL。到期后如果没有新的验证,就自动降权或归档。严格证伪的结论要默认排除,而不是继续作为“参考材料”污染上下文。第三,状态标注。任何研究结论都应该标注适用市场状态。趋势市有效的因子,不应在震荡市中以同等权重参与推理;高波动时期得到的结论,也不能无条件迁移到低波动环境。一个好的投研 Agent,不是记得最多,而是知道什么该忘。市场本身是非平稳的。如果记忆系统不能随市场状态变化而调整,它保存的不是知识,而是旧世界的偏见。
四、回测越逼真,越容易制造确定性的幻觉
AI 让回测变得更容易,也让回测变得更危险。过去,回测是一种验证工具。我们知道它有限,知道它依赖历史,知道它只是参考。现在,AI 可以帮我们快速构建跨资产、跨周期、带交易成本、带风控规则、带报告解释的完整回测系统。回测图表越来越专业,归因越来越细,压力测试越来越丰富。问题是,当一个回测看起来足够完整,它就容易从“参考”变成“信仰”。这是一种确定性的幻觉。回测再长,也只覆盖已经发生的一条历史路径。金融市场并不保证遍历性。所谓遍历性,是指一条足够长的历史路径可以代表所有可能状态。但市场中的参与者、规则、工具、监管、流动性结构都在变化。未来并不一定从过去那个“瓮”里抽样。当市场切换到一个旧数据从未覆盖的新生成过程时,回测里的概率不再是“小概率”,而是根本不在样本空间里。古典贝叶斯更新在这种情况下不会自动报警。它仍然会在既定模型空间内更新参数,给出后验,收敛到一个“最接近真实分布的错误参数”。模型看起来仍然理性,指标也可能仍然正常,但它已经在错误世界里自洽。这就是很多策略最危险的状态:正常地犯错。净值已经开始走坏,但预测误差还在历史范围内;因子 IC 没有明显异常,但市场不再奖励它;协方差矩阵继续收缩到长期均值,但长期均值已经不适用;HMM 仍然把市场分到某个旧状态里,但真实市场可能已经出现了新状态。因此,成熟的量化系统必须监控模型的边界,而不只是监控模型的误差。可以做几件事:一是状态归属熵。对于状态分类模型,如果当前数据对所有已有状态的归属概率都变得模糊,说明现有分类体系的解释力在下降。二是鲁棒折扣。把“对模型不确定”的程度写进仓位方程。当预测误差波动上升、状态归属熵上升、模型分歧扩大时,自动折扣 alpha,而不是等净值回撤后再主观减仓。三是开放状态空间。固定状态数的模型会强行把新市场塞进旧类别。更开放的思路是允许新状态被数据触发,哪怕工程上先用简单的异常检测近似,也比强行归类更诚实。回测的意义,不是证明策略永远有效,而是帮助我们理解策略在哪些条件下会失效。如果一个回测报告只告诉我们赚了多少钱,却没有告诉我们什么时候不该相信它,那它是不完整的。
在机器学习盛行的年代,HAR 波动率模型显得很朴素。它用昨日、上周、上月的已实现波动率,线性回归预测未来波动率。没有神经网络,没有复杂非线性,也没有漂亮的黑箱结构。但它长期作为波动率预测的基准模型存活下来。这件事很值得量化研究员反思。HAR 的强大,不在于模型复杂,而在于它抓住了波动率的多尺度记忆结构。昨日波动反映短期冲击,上周波动反映中期持续性,上月波动反映慢变量。三个尺度叠加,足以刻画很多资产波动率的核心节律。更重要的是,HAR 使用已实现波动率作为输入,而不是日收益率平方。后者噪声极大,前者通过高频收益累加,更接近积分方差。输入变量质量高,模型可以简单。这给 AI 量化一个启示:复杂模型不是目的,高质量表征才是目的。很多时候,复杂模型在样本内赢了 HAR,但样本外并没有稳定优势。因为它捕捉了更多短期模式,也捕捉了更多噪声。一旦市场结构变化,复杂模型的预测误差可能爆发式上升,而 HAR 因为只抓慢变量,反而更稳。这不是说不要用复杂模型,而是要知道它们适合做什么。复杂模型适合在特征空间丰富、样本量足够、市场结构相对稳定的场景中挖掘非线性关系。简单模型适合做慢速基线、风险预算、风控锚点。一个实用框架是:把 HAR 作为正常波动水平的慢速基线;用日内实现波动率或更快指标做实时调整;监控 HAR 残差,当实际波动显著高于预测时,认为市场进入线性记忆无法解释的状态,自动降仓或切换风控规则;定期重估 HAR 系数,观察日、周、月系数的变化,作为市场微观结构状态的代理。模型的价值,不只在预测精度,也在稳定性、可解释性和失效时的可诊断性。有时候,一个知道自己做不到什么的模型,比一个什么都想拟合的模型更可靠。
工具多,本身不是问题。问题是,当工具变成判断的替代品,研究员就会被工具架空。我们引入一个新模型,一个新 Agent,一个新数据源,一个新评估器,看起来每一步都提高了能力。但多个工具耦合后,可能产生新的复杂性:信号互相抵消,风险重复暴露,模型互相确认错误,执行层放大拥挤。每一个单独工具都“有效”,合在一起却失效,这是量化系统里很常见的现象。因为工具链越复杂,认知成本越高。研究员越难知道最终仓位到底来自哪个假设,最终亏损到底源于哪个环节。复杂系统一旦不可解释,风控就会变成事后复盘,而不是事前约束。所以,引入 AI 工具前,需要问一个问题:它是在帮助判断,还是替代判断?帮助判断的工具,输出更清晰的数据、更完整的场景、更高效的验证。它的终点是人的判断。替代判断的工具,输出可直接执行的指令。它的终点是人的执行。两者边界,就是交易者主体性的边界。未来不缺会调用 Agent 的人。缺的是知道什么时候不该听 Agent 的人。AI 可以是磨刀石,但不能变成握刀的手。
十四、Quant 的新护城河:筛选、否定、承担后果
AI 量化时代,Quant 不会消失,但工作重心会改变。低层执行会越来越自动化。写代码、跑回测、生成报告、批量测试因子,这些事情的门槛会持续下降。真正稀缺的能力,会集中在四个方面。第一,提出有价值问题的能力。不是“再找一个因子”,而是判断当前市场最值得研究的结构矛盾是什么。是执行成本异常?是波动率中枢切换?是某类策略拥挤?是订单流被读取?是概率校准失效?问题定义错了,工具越强越容易跑偏。第二,筛选伪信号的能力。未来不是缺因子,而是伪信号过剩。谁能建立更严的筛选流程,谁就能少被噪声骗。第三,理解策略失效边界的能力。一个策略什么时候赚钱不难描述,难的是它什么时候会亏,为什么会亏,亏的时候是否还能坚持,还是应该降级或退出。第四,承担后果的能力。交易最终不是报告,而是仓位。模型可以建议,AI 可以解释,但盈亏由人承担。真正的判断,必须包含承担后果的勇气。很多人担心 AI 抢走 Quant 的工作。更现实的风险是:AI 没有抢走我们的工作,却抢走了我们的判断。当模型输出越来越完整、解释越来越漂亮、回测越来越逼真,我们可能不再主动思考,只是在确认模型已经告诉我们的结论。久而久之,研究员从决策者退化成执行层。这才是最危险的。