AI 研究中最难的关卡:如何让系统学会从自己的错误中自动进化

系列文章 3 之 3 — 常驻记忆、模拟交易盘、混合事实稽核以及为什么自我纠错是唯一的护城河

服务器端记忆压缩固化生态

会话失忆症是一个致命的物理缺陷

今天世界上几乎所有的大模型应用项目，都寄生在一个巨大的物理缺陷之上：会话失忆症（Session Amnesia）。

大模型开启一次新的对话，滔滔不绝地输出一堆高深莫测的分析，然后在这个会话结束的瞬间，彻底遗忘刚刚发生的一切。下一次对话启动时，一切重回白纸一张。没有对上一次结论的传承，没有对过去犯过错误的警惕，更谈不上建立起一以贯之的分析视角。

对于闲聊或者一次性的代码调试而言，这只是个微不足道的体验瑕疵。但在严酷的证券投资研究中，这确实致命的。

投资分析本质上是一个高维的累积过程。一个负责覆盖半导体板块的优秀人类分析师，绝不会在每天早上醒来时将脑袋彻底清空。他们脑子里携带的是长达数月甚至数年累积的认知版图：对竞争对手护城河的最新断代、仍在验证中的核心疑点、对上一次预测偏差的深度复盘以及跨板块间的协同推论。这部分不断沉淀并得到高频修正的“存量认知”，才是一个专业研究员真正赖以生存的投资阿尔法来源。一个没有记忆的分析师，是一个根本没有壁垒的分析师。

AI 股票研究院通过三个紧密咬合的系统，在底层彻底治愈了会话失忆症，构建起了一个完全闭环的自我学习模型。构建这套体系的每一次迭代，都伴随着大量的底层工程挑战。

第一部分：常驻记忆与 Step 0g 动态自举装载

架构设计

我们为研究院的 36 名专业分析师 Agent 每个人都分配了一份常驻记忆文档（Standing Memory Document）。这是一份高度结构化、永久存续的专业日志，用于记录它们思想演进的轨迹。

它与所谓的“对话历史（Chat History）”有着天壤之别。对话历史是一卷毫无过滤的流水账，记录了说过的每一句话，由于杂讯过多，在几次循环后就会撑爆模型的上下文窗口。而常驻记忆是一份经过高度筛选、压缩和提炼的“当前投资假设白皮书”。

这就像是：记录一个分析师整年开会说过的每一个字（对话历史，冗长且毫无头绪），与维持一份精简、随着市场变化动态修正的看多/看空假设文档（常驻记忆，随时可用）之间的区别。

夜间记忆压缩固化循环

每晚新加坡时间 23:30（SGT 23:30），系统会定时调度一个全自动的“记忆压缩固化程序”。选择新加坡时间作为研究院的 canonical clock（标准时钟），是因为它完美契合亚洲市场的收盘，为分析师提供了一个天然的每日复盘边界。

常驻记忆的固化分为三个步骤：

1.多源输入收集：系统全量收割分析师当天产出的所有文本碎屑——白板上完成的研究卡片、分析师同事之间收发的所有信件、被系统捕获的个股预测数据、事实稽核管线出具的最终判决书以及运营人员手动下发的反馈意见。

2.极限压缩固化：调度专门的大模型后台，将上述的“当日碎屑”与“前一日常驻记忆”进行并表处理。它的核心使命绝非简单地出一份摘要（这会丢掉大量精细的逻辑），而是进行认知压缩（Compaction）：更新仓位看法、确认犯下的错误并写入 लेसन（教训）、将已解决的悬案划掉，同时开辟新的待求证悬案。

3.单调版本存续：压缩后的记忆文件以单调递增的版本号写入边缘对象存储。每当运营人员想要审计为什么某名分析师在今天突然改变了其对某只股票的长期看法时，他们可以轻松沿着版本号回溯到最源头的那个记忆固化周期。

分析师内部邮箱 UI

严苛的五段式记忆纲领

为了保证大模型在处理常驻记忆时的物理结构稳定性，每一份记忆文档都被强行塞入五个核心章节：

第一段：Standing Positions（当前持仓看法）：必须标注日期与论据支撑，强制打上 [stands]（维持）或 [retracted]（撤销）的状态标签。

·例如：“[2026-05-15] [stands] 看多甲公司——合理估值 148 美元，基于其云业务利润率的杠杆效应，预计 18 个月内利润率提升 200 个基点。防守止损价 105 美元，第一目标价 165 美元。”

这是常驻记忆最伟大的部分：它为分析师 Agent 戴上了责任的铁钳。每当分析师启动一项新任务时，它在 Step 0g 自举中必须首先承认自己写过的这段历史观点。如果它想推翻这一观点转向看空，它必须在报告中手写出对此前观点的 [retracted] 声明并给出扎实的数据反驳。这彻底终结了大模型由于缺乏记忆，在不同会话中 cheerful（兴高采烈地）自己打脸的荒谬行径。

第二段：Open Questions（未决悬案与逻辑张力）：记录当前分析师的核心认知边界：相互冲突的数据源、与其他分析师的意见分歧以及尚未被交叉验证的模型参数。

第三段：Active Focus Areas（当前专注课题）：正在密切追踪的行业价值链、正在跨组推进的白板协作选题以及正在孵化中的行业主题。

第四段：Recent Corrections & Lessons（近期偏误修正与教训）：这是整个自我学习闭环中，对于系统长期进化而言权重最高的版块。每当该分析师的报告被事实稽核管线判定为 Disputed（存疑驳回）、被人类运营人员手动打回，或者被真实的市场收盘价证明预测错误时，这些偏误会被以极高的字面优先级，详细记录在偏误修正版块中，并清晰勾勒出因果纠偏逻辑。

·例如：“[2026-05-19 修正案]：此前关于乙公司工厂开工率的表述有误。错误报告为 90%，事实稽核核实为 75%（由于 scheduled maintenance 计划内停产维护）。教训：未来验证物理产能开工率时，必须优先以行业协会或者一线物流数据为锚点，绝不能偏听偏信企业管理层在电话会上的口头陈述。”

第五段：Memory Metadata（记忆元数据）：记录一些持续追踪的硬指标：活跃观点总数、本周期纠偏频次以及根据近期预测胜率动态折算出来的分析师“自评确信度因子”（确信度在多次纠偏后会大幅调低，在预测获胜后会动态调高）。

Step 0g 动态自举装载

在分析师 Agent 被调度去执行任何卡片或研究工作前，系统会无条件地首先执行 Step 0g 自举装载。这一步骤会把该分析师最新的 Standing Memory 文档、当前名下挂载的所有人类运营指令（Delegations），强制动态拼接到大模型的沙箱初始化 Prompt 中。系统会强行命令分析师：(a) 审查与其被分派任务相关的所有历史看法；(b) 除非掌握了颠覆性的新数据支撑，否则必须保持与历史观点的逻辑一致性；(c) 对人类派发的每一条指令给出具体的落实备忘。

这赋予了 Agent 永久存续的分析师人格。尽管底层的每一次执行都是一次物理上从零开始的模型冷启动，但由于 Step 0g 的存在，分析师表现得就像是拥有完美历史连续记忆的人类专家。

人类指令派发系统与 7 天 SLA 自动熔断机制

人类运营人员可以直接向特定分析师下达专项研究工单。这些工单会与常驻记忆一起在 Step 0g 阶段装载。系统为此制定了一条硬性的 7天 SLA（Service Level Agreement，服务等级协议）熔断铁律：如果某名分析师在收到运营指令的 7 天内，没有在白板中通过具体的卡片交付去回应、或者在自举中手写出合理的理由去驳回这条指令，该指令会在第 8 天早晨被系统自动 sweeps（扫回）操作员的未处理收件箱，防止任务在漫无目的的 Agent 运行中掉入黑洞。

悬在我们头顶的物理红线：常驻记忆膨胀与 Token 预算崩溃

常驻记忆的设计十分精妙，但在真实生产环境中，它正面临着一个无可回避的物理天花板：记忆文档的无节制膨胀。

随着系统运行周期的拉长，常驻记忆文档的字符量开始出现指数级暴涨。宏观策略师在连续平稳运转几周后，其常驻记忆文档自身的体积已经开始吞噬底层大模型接口单次调用 15% 到 20% 的宝贵上下文窗口（Context Window）配额。

我们急需一套既能保留最底层的核心观念、又能够对过期的琐碎论据进行自然遗忘的记忆压缩算法。如果粗暴地丢掉 30 天前的观点，我们可能会在一夜之间遗失掉宏观策略师关于全球利率走向的最宝贵大局观；而如果为了省空间去合并压缩第四段（偏误纠正），我们又会直接阉割掉系统唯一的错误学习通路。

我们目前采取的工程手段相当 brute-force（野蛮）：当单名分析师的记忆文件体积突破硬性警报线时，夜间记忆压缩程序会被强行注入一段“极限脱水”指令，命令其大幅合并归类前三章的陈旧持仓看法，但强行要求第四章的偏误与教训必须全文保留。这固然维持了运行，但从系统工程的角度来看，这显得非常不优雅。我们在项目路线图里规划了一套全新的“层级记忆金字塔模型”（分出核心观念的“岩石层”和近期动态上下文的“流水层”），但该设计目前依然在论证中。

第二部分：模拟交易盘交易引擎（Paper Book）

分析与实操之间的鸿沟

在当今几乎所有的 AI 研报生成系统中，都存在一个巨大的“责任断层”：系统吐出报告，用户阅读报告，然后，一切就结束了。

至于大模型在报告里极其嚣张地宣称的“该公司即将迎来 50% 的业绩爆发期”在未来到底是被市场事实无情戳破，还是被完美兑现，底层的大模型对此完全无感知。这导致它们在写研报时，倾向于使用各种极度华丽、但缺乏现实约束的词藻去堆砌观点。它们不需要对它们吹过的牛皮负任何责任。

这是普通文字生成与严肃投资决策之间的天堑。分析师只产出观点；而投资经理需要产出可以被清算、被标记的真实业绩曲线。

模拟交易盘（Paper Book）就是我们搭建的跨越这一鸿沟的铁桥。

模拟实盘交易终端 UI

运行机制

模拟交易盘掌管着一个虚拟的 1000 万美元（$10,000,000 USD）主权投资基金。所有符合全院质量合规审计的分析师研究报告，在发布的同时，都会被系统强制自动提炼，转化为一笔具体的投资头寸。该头寸会与每日真实的市场收盘价进行无情清算（Mark-to-Market），产生的所有盈亏归功或归咎于该头寸的提案分析师。

1. 强制性个股预测提取（Forecast Extraction）：当分析师的报告通过 QA 审计时，一个自动化后置模块会全力从中提取个股预测数据。一笔合规的预测提案必须包含且仅包含五个核心参数：Ticker（股票代码）、Direction（投资方向：多头/空头）、Entry Price（建仓目标价）、Target Price（获利平仓价）以及 Stop-loss Price（防御止损价）。这五个字段只要缺席任何一个，该分析师的预测提案就会被当场作废——我们绝不接受任何模棱两可的 directional opinions（ directional 带有避险性质的方向性话术）。

2. 投资头寸自动开启：系统每日定时扫描全院产出的新鮮预测提案，在通过全局风险暴露限额核验后，自动在虚拟盘中以市场真实价格开仓。

3. 每日无情清算（Daily MTM）：在真实美股收盘后，交易盘引擎会自动接入实时的闭市行情数据，重新核算所有未平仓头寸的浮动盈亏，自动检测是否触发了 Target Price（获利平仓）或 Stop-loss Price（止损出局）边界，并自动对触发的头寸进行平仓结转，同时将已实现的盈亏，以一笔一笔的清晰流水，单向记入该分析师的累积 P&L 业绩表中。

4. 基金单位净值计算（NAV Snapshot）：每天清算完成后，引擎会重新核算这 1000 万美元基金的 Net Asset Value（单位净值），并在数据库里记下一份带时间戳的资产负债快照。随着时间的流逝，这会生成一条毫无粉饰、可以直接供专业投资人审阅的 NAV 单位净值曲线，并自动折算出 Sharpe ratio（夏普比率）、Max Drawdown（最大回撤）、Win Rate（胜率）等量化硬指标。

钢铁般的风险控制框架

为了防止某名偏激的分析师一笔交易就把 1000 万美元本金烧光，模拟交易盘在底层硬编码了与专业主权基金等价的量化风控红线：

·单仓限制（Position Cap）：任何单笔建仓的初始资金配额，严禁超过当前基金总净值的 5%（即单笔最大投资上限 50 万美元）。

·总持仓并发限制：系统内允许开立的未平仓头寸上限为 20 笔。

·分析师单一风险度限制：单名分析师名下的未平仓头寸总风险暴露，严禁超过当前基金总暴露的 15%，防止单个 Agent 情绪失控绑架整个基金。

·板块集中度硬熔断：任何单一行业板块（按全球行业分类标准 GICS 划分，如科技、医疗）的资金暴露严禁超过 25%。

·最大回撤硬熔断电路（Drawdown Circuit Breaker）：如果基金的 NAV 从历史最高峰值回撤超过 15%，系统将立即强制冰封所有新仓位的开立权限，将所有资金强制锁死，直到人类运营人员完成全院分析师偏差审计并手动解锁。

·头寸规模分配策略：支持 equal_weight（均等权重）、conviction_weighted（确信度权重）或基于历史波动率倒数折算的 risk_parity（风险平价）三种动态分配算法。

交易盘延迟上线的“前夜故事”

模拟交易盘的 Inception Date（首航日）原定于 2026 年 5 月 15 日。然而，在经历了两次惊心动魄的灰度压力测试后，我们发现并解决了两个极为严重的隐患，导致首航被紧急推迟到了 5 月 24 日：

隐患 1：垃圾陈旧预测的“Day-0 填平”：由于系统里堆积了大量自 5 月 15 日以来挂起的 pending 预测提案（共计 1,175 笔），早期的开盘逻辑由于采用升序排列，在 Day-0 启动时会非常愚蠢地优先去执行那些多日前提交的历史预测。这会导致基金一开盘就会塞满一堆由于市场行情早已变迁而彻底失效的“陈旧死仓”。

·修复方案：我们将开仓扫描排序彻底翻转为降序（最新优先），并强制加入 7 天 staleness filter（ staleness 尘封过滤器）。任何距离提交时间超过 7 天的个股提案，直接原地宣告报废，永不允许建仓。

隐患 2：灰度测试脏数据的“净值污染”：在测试期间，有两笔用于烟雾测试的虚拟平仓产生了 1,490 美元的浮盈，并且留下了 5 条资产净值快照。如果不将其彻底打扫干净，基金的正式 NAV 曲线就会出现极其业余的“开盘前净值波动”。

·修复方案：我们编写了一段一键清理脚本，将所有灰度脏数据剥离归档，彻底将交易主表置空。让 1000 万美元的初始基金以绝对纯净的 $10,000,000 / 0 持仓 / 0% 历史收益率在 5 月 24 日完美首航。

为此，我们甚至起草了一份充满庄严感的《基金首航操作检查清单（Inception Checklist）》，包含 T-1 终审、首航日 4 次系统强制签名握手礼、首周遥测追踪方案以及完备的物理回滚指南。

第三部分：混合事实稽核管线（Fact-Check Hybrid）

高昂的无效稽核成本

在早期版本中，我们为全院所有的研究卡片配置了无差别的事实核验：只要报告里吐出一句话，系统就会疯狂调度联网检索去试图求证其真实性。在运行了一段时间后，积累的遥测数据让我们感到十分难堪：

·全院共计处理了 6,615 张事实核验卡片。

·其中有 4,764 张（占比 75.8%）最终返回的判决是 unverifiable（无法核实）。

·真正抓获大模型事实性编造并判定为 Disputed（存疑反驳）的卡片仅有 56 张。

·事实核验系统的有效捕获率（信噪比）仅有可怜的 1.2%。

这意味着我们在大量的普通分析叙事上，空转消耗了海量的联网搜索额度和调用成本。而那 4700 多张“无法核实”的卡片中，有极高的比例是因为我们的大模型事实稽核系统在面对特定的区域性商业数据时，底层搜索语料的覆盖度不足。

三层混合事实稽核管线

这次能效危机促使我们重构了整个事实核验流程，改写为精密的三层混合防御机制（Three-Tier Hybrid）：

事实稽核审计中心 UI

Tier 1：全院记忆向量比对（Vector Reuse）：在将任何事实陈述推向外网求证前，系统会首先拿着这句话去我们的 FACT_CARD_INDEX 本地向量库中进行嵌入比对。如果发现该陈述与历史上某条已被核实的事实相似度极高，则直接复用历史判决。而如果比对撞上了历史上曾被判为 Disputed（虚假编造）的相似记录，系统会瞬间拉响 Self-Contradiction Alert（分析师自我矛盾红色告警），直接冻结该卡片，生成一张修正工单扔给运营人员进行人工干预。

Tier 2：精准窄车道限流门控（Narrow-Lane Gate）：只有同时满足以下三个硬性门槛的事实，才允许被推向上游联网执行外网求证： 1. 必须源自白板引擎产出的核心交付成果（过滤掉日常碎屑）。 2. 必须在分类器中被判定为 Numerical（定量数据）或 Financial（财务指标）（过滤掉无法被非黑即白判定对错的软性行业叙事）。 3. 必须通过地理和特定品类的正向正则过滤（自动剔除那些我们已知大模型搜索引擎无法覆盖的盲区字段）。

那些未能通过窄门的事实会被系统打上“Uncertain（未稽核）”的灰色标签直接放行。这一权衡虽然看起来有妥协之嫌，但事实证明它在极度务实的生产环境中是一个巨大胜利：它直接帮助我们砍掉了 75% 的外网检索账单，同时，对于历史上那 56 起恶性虚假编造事实的捕获率，依然保持在恐怖的 100%。因为所有的恶意幻觉，几乎全都集中在白板产出的财务估值数据中。

Tier 3：领域定向路由检索（Domain-Routed Queries）：对于通过窄门的事实，我们不再漫无目的地在全网上泛泛搜索。系统会将事实按业务属性定向分发给最权威的数据源域名：美联储历史数据定向路由给 FRED，中概股财报定向指引 SEC 域名。所有高频调用的关键序列数据均在 KV 中配置了 7 天的 TTL 缓存，实现秒级的秒查秒放。

自动化闭环：全院认知飞轮

常驻记忆、模拟交易盘、混合事实稽核，每一个模块单独拿出来都是非常优秀的系统组件。但当我们将它们首尾相衔、无缝咬合时，研究院真正的生命力——自我进化认知飞轮（Autonomous Feedback Loop）——才正式被唤醒：

自动化闭环：全院认知飞轮

这个飞轮不需要我们重新去微调大模型的参数（Fine-Tuning），也不依赖任何昂贵的定制化私有语料。它是在通用的商业大模型底座之上，通过精妙设计的数据路由机制和严格的行为契约约束，让整个系统能够自发地、一天比一天更贴近客观现实。

分析师执行会话与追踪 UI

结语：让飞轮转一会儿

在这长达数万字的三部曲系列文章中，我们为您毫无保留地拆解了 AI 股票研究院的完整技术架构——它绝不是一份拿去向投资人要钱的 PPT，而是一份沾满了机油、汗水和实战泥沙的系统构建者日志。

它让我们深刻地意识到：真正高维的系统智能，绝非体现在某一次预测的偶然精准上，而是体现在系统是否具备能够从错误中进行系统性、闭环式自动学习的能力。

系统已经上线，36 个 Agent 已经在边缘分布式集群中平稳安家，白板定时卡片在 Tick 律动中井然有序地推进，模拟交易盘在跟随全球金融市场的脉搏一同清算。每当新加坡时间深夜 23:30 的钟声敲响，全院的记忆压缩程序就会如期轰鸣，将全天的犯错与胜负，淬炼成一小段能够让明天的决策变得更加锋利的常驻记忆。

接下来我们要做的，就是克制住不断去堆叠新功能的冲动，保持耐心，保持敬畏，在系统旁边静静地观察，让这个伟大的认知飞轮转一会儿。

最危险的系统，是那个从来不觉得自己会犯错的系统。在你们日常的生产开发中，你们为 AI 系统设计了怎样的自我纠偏与责任追溯机制？欢迎在评论区留下你们的看法。