风险管理工具系列丨人工智能在场外衍生品领域应用的风险和监管挑战-夜雨聆风

风险管理工具系列丨人工智能在场外衍生品领域应用的风险和监管挑战

编者按：为深入学习贯彻党的二十届四中全会精神，更好服务“十五五”发展目标和金融强国建设，促进衍生品业务稳步发展，中证报价投教基地推出“风险管理工具系列”专题，聚焦场外衍生品在提供适配长期投资的风险管理工具、服务实体经济发展中的功能作用，展现其在助力经济社会高质量发展中的实践路径与创新成果。

作者：广发证券股份有限公司股权衍生品业务部和稽核部课题组

在模型应用层面，一方面聚焦模型幻觉易引发误判风险暴露水平、定价模型漂移和条款解读错误等问题，另一方面聚焦输出不稳定性潜在的法律纠纷、误导投资决策等现实难题；在策略趋同问题上，数据、模型架构和开发流程的同质化，一定程度上可能放大了场外衍生品市场的系统性波动风险；AI的黑箱特性，可能导致报价错误难以追溯，同时模型的可解释性不足可能面临更为严苛的监管要求；最后在客户隐私保护及模型安全性方面，在数据收集、传输环节潜在的漏洞以及现实存在的模型投毒等风险，易引发隐私泄露、商业机密外流，还可能违反跨境数据监管规定。上述风险均根植于AI技术原理与场外衍生品业务的复杂场景中，对行业应用和监管工作提出了全新且严苛的要求。

模型应用的主要难点

在场外衍生品这种对精确性要求极高的领域，应用人工智能工具，尤其是大语言模型（LLM），会面临一些独特的挑战。其中，模型幻觉（Hallucination）和输出不稳定性（Output Instability）是两大核心现实难点。

▍模型幻觉 (Hallucination)

AI幻觉是指模型生成看似合理但实际不准确或完全虚构的信息。在金融领域，主要表现为事实性幻觉（生成内容与可验证事实不符）和忠实性幻觉（生成内容与用户指令或上下文不一致）。近期，德勤公司在提交给澳大利亚政府一份福利审查报告中，多处引用了虚假的裁判案例，甚至生成了部分错误的法官姓名。该报告价值44万澳元，上述事件中德勤公司不仅未披露其使用AI生成审查报告的有关情况，且报告的人工审核机制亦失效，最终德勤公司退还政府9.7万澳元并对报告进行了重新修订。此类事件屡见不鲜，根据沙丘智库《2025年金融业智能体最佳实践报告》，56.8%的金融机构将大模型幻觉作为智能体应用的核心挑战，凸显其严重性。我们结合OpenAI的最新研究成果，对上述情况进行分析。

1、问题产生原因：

（1）训练评估机制系统性奖励模型的猜测行为：根据OpenAI的《Why Language Models Hallucinate》研究，幻觉的根源在于模型训练和基准测试中，系统倾向于奖励猜测行为而非鼓励模型在缺乏足够知识时直接输出“我不知道”。这种机制导致模型在面对未知或模糊信息时过度生成看似合理但虚构的内容，而非保守地拒绝回答。LLM本质上是基于统计模式生成文本，通过预测下一个最可能的词序列来输出内容，而非基于事实进行逻辑推理，这在场外衍生品等需要精确推理的场景中加剧了幻觉风险。

（2）大模型训练数据存在局限：模型的训练数据可能有限，无法涵盖所有知识领域，或存在偏见、错误及过时信息。若训练数据与当前剧烈变化的市场环境（如风格切换、结构重整）脱节，模型参数无法有效反映现实（即：参数漂移现象）。在证券行业中，知识库内容往往涉及大量长尾知识和快速迭代的市场信息，加剧了幻觉风险。

（3）大模型缺乏可靠的验证机制：LLM内部缺乏验证生成内容真实性的内在机制。例如，在处理资产配置类任务时，由于输入历史语料长度和复杂性显著增加，模型可能生成错误信息（如引用不存在的文件或生成虚构的市场事件），而现有评估体系（如SWE-bench等主流测试）缺乏实时的事实性验证，对生成结果的可信度缺乏校验与奖励，使得幻觉进一步加剧。

2、模型幻觉在场外衍生品领域的应用风险分析

场外衍生品结构复杂、高度定制，且高度依赖市场数据和模型假设。AI幻觉在此场景下的危害尤为突出：

（1）误判风险暴露：例如，在计算XVA（信用估值调整、资金估值调整等）时，若模型因幻觉高估或低估了交易对手的违约概率（PD）或违约损失率（LGD），会导致对潜在风险敞口和资金成本的错误估计，进而引发错误的对冲决策或资本预留。

（2）定价模型漂移：对于路径依赖型期权（如亚式期权、障碍期权），其定价严重依赖对标的资产未来价格路径的模拟。若AI模型在设计定价代码框架、引用定价参数时产生幻觉，导致波动率曲面拟合失真或定价参数引用错误，会直接误判期权触发概率和最终收益。例如，某金融科技初创公司曾依赖QuantLib+AI脚本构建期权定价库，但输出代码框架出现了严重偏差，导致定价结果产生较大漂移。

（3）条款解读错误：场外衍生品的法律文本（ISDA协议、衍生品确认书等）复杂且充满细节。若基于LLM的辅助解读工具出现忠实性幻觉，错误理解或概括了某些关键条款（如提前终止条件、抵押品追加触发机制），影响拟定衍生品交易文本的协商效率，甚至可能隐含重大法律漏洞。

▍输出不稳定性 (Output Instability)

输出不稳定性（Output Instability）是指在大语言模型（LLM）的推理过程中，针对相同的输入提示（Prompt），模型多次生成的结果在语义、数值或逻辑上存在非预期差异。在要求高度一致性、可重复性和审计追踪的金融应用场景中，这种随机性是不可接受的。

1、问题产生原因

（1）批处理计算路径不稳定：OpenAI前CTO创办的Thinking Machines Lab近期发表《Defeating Nondeterminism in LLM Inference》研究，指出输出不稳定的核心并非通常认为的概率采样机制，而是由于批处理不变性（batch invariance）的缺失。即，模型前向计算的结果依赖于批处理大小和并行请求的组合方式。即使将温度参数设为0，理论上应实现确定性输出，但实际推理引擎（如vLLM或SGLang）的内核实现（如矩阵乘法和注意力机制）不是批处理不变的，导致输出结果产生偏移。例如，为优化性能，内核会根据批处理大小动态选择计算策略（如Split-K矩阵乘法或FlashAttention的并行分割），导致相同输入在不同批处理配置下产生不同计算路径和输出结果。

（2）系统架构的敏感性放大了不稳定性：LLM推理服务器对并发请求的负载高度敏感，批处理大小会即时跟随服务器负载发生变化。因此，输出更多取决于当时并行请求的数量和组合方式，这种敏感性源于系统架构缺乏应对批处理任务的负荷不变性，即使输入提示完全相同，微小的批处理变化也可能触发注意力机制或归一化层（如RMSNorm）的重新计算，导致输出差异。这与非线性系统的复杂性相结合，放大了不稳定性。

2、在场外衍生品领域的应用风险分析

1）模型输出的法律风险：场外衍生品交易依赖于高度定制化的法律文件（如ISDA主协议、信用支持附件CSA、交易确认书）。若使用LLM辅助审查条款或生成法律咨询意见，输出的不稳定性可能导致对同一关键条款（如终止事件、管辖法律、争议解决机制）的理解出现前后矛盾。例如，一次查询可能判断某条款有利于我方，而另一次查询可能忽略某个关键例外情况，得出相反结论。这种不一致会引发严重的法律风险、合同纠纷和合规漏洞，甚至影响交易的合法有效性。

2）大模型的市场预测信息误导投资决策：LLM被用于分析市场情绪、解读宏观经济新闻或生成短期价格走势预测时，其输出的不稳定性会直接转化为交易决策的噪音。例如，对同一组市场数据，模型可能交替生成“看涨”和“看跌”的判断，或者对波动率、相关性等关键预测参数的估计值发生大幅跳动。这种预测结果的异常波动会传导至下游的交易系统：

对于量化交易策略：导致策略信号频繁翻转（Flip-flopping），引发不必要的调仓交易，增加交易成本（如佣金、滑点），并可能使策略绩效显著偏离回溯测试结果。

对于对冲操作：模型输出的希腊字母值不稳定，直接导致高阶风险对冲不充分，若市场存在黑天鹅事件，模型由于缺乏相关历史场景及数据的训练，模型输出也可能存在巨大偏差。

对于主观交易员：干扰交易员的决策信心，使其在相互矛盾的模型建议间犹豫不决，错过最佳交易时机或做出错误决策。

对于算法执行：如果预测模型直接驱动高频算法单，输出的不稳定可能引发订单流的异常波动，甚至在极端情况下加剧市场波动（如Flash Crash）。

策略趋同放大波动

大模型技术的快速发展正深刻改变金融行业的决策模式，同时也带来了策略趋同这一新型系统性风险。由于金融机构普遍采用相似的人工智能模型和数据源，导致其在投资决策、风险管理和交易执行等方面表现出高度一致性的现象。这种现象在量化投资与程序化交易领域尤为明显，并逐渐蔓延至场外衍生品定价、对冲与风险管理等复杂金融环节。策略趋同并非传统意义上的故意共谋，而是技术同质化导致的无意识集体行为，其风险也因此更具隐蔽性、传染性和系统性。

▍问题产生原因

1、数据同源：多数金融机构依赖少数几家主流第三方数据服务商（如Bloomberg、Refinitiv、S&P Global），导致模型接收的原始信息和特征工程（Feature Engineering）输出高度重叠。数据源的趋同直接造成信息集缺乏多样性，模型处理逻辑与生成的信号自然趋同，削弱了市场竞争的有效性和价格发现功能。

2、模型架构标准化：例如，Transformer架构、LSTM（长短期记忆网络）结合强化学习（RL）已成为时间序列预测的行业常见配置。众多资管和衍生品做市商采用相似的波动率预测框架（如GARCH族模型+NN增强）或风险中性定价模型，致使交易指令同步率显著提升。更深入的问题在于，许多机构直接使用主流AI平台（如TensorFlow、PyTorch）提供的标准预训练模型或开源架构进行微调，导致模型隐含的归纳偏差和响应函数高度相似。例如，某基金在其量化交易策略中积极应用AI技术，构建了包含上万个Nvidia A100 GPU 的超级计算平台。然而，根据报道该基金在2021年底因量化策略同质化严重等原因，导致该公司大部分产品的年内超额已降至负值,其中有些产品年内跌幅已超8%。在同一管理人旗下类似产品采用相似策略模型的时候，类似的交易输出可能进一步加剧了市场趋同的风险。

3、低门槛策略的开发流程显著趋同：AI技术显著降低了量化策略的开发门槛，但也带来了新的风险。许多团队过度依赖“AI主导”的自动化流程，缺乏必要的专家监督与领域知识嵌入。例如：在自动化撰写定价程序时，模型可能仅根据“行业惯例”生成代码，而未深入考虑模型假设的合理性（如波动率参数的采样区间市场结构是否发生了重大变化）；为追求效率，系统可能同时生成多份分析报告或代码文件，但缺乏对生成内容的交叉验证与代码回溯，导致关键细节被遗漏（如忽略极端情景下的尾部风险处理）；最终，这种高度依赖自动化的开发模式导致不同机构开发的低门槛类策略的核心逻辑、参数构造、风控架构表现出了高度趋同，放大了市场风险的传染概率。

▍在场外衍生品领域的应用风险分析

在场外衍生品领域，产品结构复杂、流动性相对较低，策略趋同可能引发更严重的系统性风险。

1、模型与估值方法趋同风险：场外衍生品定价高度依赖数学模型（如Black-Scholes模型、局部波动率模型、随机波动率模型等）。近年来，AI技术被广泛应用于增强传统定价模型的校准精度和计算效率。然而，众多机构采用相似的AI框架（如相同的神经网络结构、优化算法和训练数据）来优化模型参数和校准过程，导致定价引擎、输出高度相关。当模型存在共同缺陷或未能捕捉到某些关键风险因素（如流动性枯竭下的远期波动率行为）时，所有使用相似模型的机构会同时出现估值偏差、。在市场压力时期，这种集体偏差可能引发大规模的模型驱动抛售或买入，导致剧烈的价格调整和市场波动，甚至触发流动性枯竭。

2、数据源趋同风险：由于直接获取场外市场的真实交易数据难度较大，场外衍生品的估值和风险管理严重依赖场内市场数据。如果市场参与者普遍依赖少数几家数据提供商，一旦这些数据源出现错误、延迟或方法论变更，将导致整个市场基于有缺陷的相同信息进行决策和估值。例如，若某数据源的盘中标的价格因技术问题未能及时更新，所有依赖该指标进行希腊值计算的机构将同时错误估计其风险敞口，对整个市场的自动化交易对冲行为产生重大影响。

黑箱问题

生成式人工智能的“黑箱”特性，主要指其内部决策过程不透明，输入与输出之间的因果关系难以被人类直观理解。这种特性在场外衍生品这类复杂金融领域，会显著增加金融风险的隐蔽性。

▍问题产生原因

传统金融模型（如Black-Scholes模型）通常有明确的数学假设、闭式解或数值方法，其风险点相对可见且可量化。而GenAI模型（尤其是深度神经网络），其决策依赖于海量参数（通常达数十亿至万亿级）和复杂的非线性变换，风险可能隐藏在任何一层隐藏层、注意力头或神经元连接的权重中。这种复杂性使得：

1、归因困难：难以确定输出结果究竟是由哪些特定输入特征或训练数据所驱动。

2、因果模糊：模型可能学习到历史数据中的虚假关联或数据偏见，而非真正的经济因果关系。

3、突发行为不可预测：在训练数据未覆盖的极端或新型市场情境下，模型可能产生无法预见的突发行为。

▍衍生品领域黑箱问题的潜在风险

1、形成错误的报价结果，造成法律风险

金融机构利用GenAI模型自动生成场外衍生品的客户报价单。由于模型黑箱特性，其报价逻辑可能基于某些难以察觉的错误模式，例如错误地映射了某个流动性不足的隐含波动率曲面节点，或误解了复杂条款之间的相互作用。例如，某券商使用GenAI系统为一家企业客户自动生成一份利率互换（Interest Rate Swap）结构化报价。系统输出了一份表面上极具竞争力的报价并被发送给客户。客户基于此报价确认并达成了交易。然而，几周后市场发生变动，该券商内部进行头寸重新估值时发现，这笔交易的实际风险远高于预期，存在重大亏损风险。经查，问题源于AI报价模型引用了一个已过时的流动性溢价参数。由于该错误深嵌于模型的深层参数化表示中，常规的报价校验流程未能发现。后续影响：客户得知后认为报价存在重大误导，提起投诉并要求赔偿。券商团队试图回溯复现当时的报价决策过程，但因模型的黑箱特性，排查工作异常艰难。工程师很难定位是模型结构的哪一部分、哪一阶段的学习导致了该特定参数的错误嵌入。这不仅引发了直接的财务损失和客户关系危机，更暴露出在应对监管质询和内部审计时，机构难以提供令人信服的决策解释和证据，从而面临严重的合规与操作风险）。

2、可解释性不足面临监管风险

如前述案例，GenAI用于复杂衍生品定价时，其逻辑难以追溯，可能导致系统性偏差。欧盟《人工智能法案》将用于金融服务的某些AI系统归类为“高风险”系统，对其可解释性提出了强制性要求。欧盟人工智能法案专章讨论人工智能模型的可解释性风险，强制要求交易商履行透明度与信息提供义务：

高风险AI系统的提供者必须确保其设计和开发具备足够的透明度，使部署者能够解释系统的输出并适当使用。必须提供详尽的使用说明，包括其性能、局限性以及可预见风险等信息。1）可解释性AI技术应用：法案鼓励但不强制要求使用特定技术（如LIME、SHAP），但实质上要求输出结果必须具备“可追溯性”和“可理解性”。这意味着金融机构不能仅提供一个价格数字，而必须能够阐明该价格是基于哪些主要输入变量、大致遵循何种逻辑得出的（即使无法完全复现所有计算细节）。2）记录保存与日志要求：法案要求高风险AI系统必须具备自动记录事件（日志）的功能，以确保运行的可追溯性。这对于事后审计和归因至关重要。在金融语境下，这意味着每一次AI生成的报价或交易决策，都必须有对应的、可供审计的输入数据快照和模型版本信息。3）人类监督：法案要求高风险AI系统必须设计为允许有效的人类监督。在金融领域，这意味着AI生成的报价或交易建议在执行前，应有具备相应能力的专业人员对其进行监督审查，特别是对于重大或复杂交易。

客户隐私保护及模型安全性风险

大模型技术在金融衍生品领域的应用，虽然提升了效率与创新能力，但其在客户隐私数据保护及模型安全性方面的风险同样显著，这些风险根植于其技术原理与运作机制，并可能在衍生品这一复杂领域引发特定问题。

▍问题产生原因

1、数据收集与记忆机制。大模型的训练与推理严重依赖于海量数据。在金融领域，这些数据通常包含大量高敏感性的客户信息，如身份信息、资产证明、详细财务状况、风险测评结果及历史交易记录等。这些数据包括交易对手的合格投资者资质证明、资产规模、风险测评结果、历史交易记录等敏感信息。模型参数记忆可能导致训练数据中的敏感片段被编码存储，即使数据经过脱敏，也可能通过非线性变换在响应查询时重构信息。

因而，部署模式与数据流的安全性至关重要。金融机构通常采用本地化私有部署大模型（如部署在自建数据中心或私有云）以严格隔离公网，确保物理和数据逻辑上的隔离。数据存储方案上，许多企业选择基于类似Coze等平台构建企业知识库，但需确保所有客户敏感数据在存储（无论是对象存储、向量数据库）、交互（用户与模型的问答）和传输（内部网络或专线）的全链路中均受到高强度加密和严格的访问控制保护，杜绝任何明文传输或未授权访问。

2、数据交互与传输漏洞。在模型推理（Inference）、微调（Fine-tuning）或与外部业务系统（如CRM、交易系统、风控平台）进行集成对接的过程中，数据会频繁跨越多个边界，形成潜在的攻击面。

例如，在知识库构建与API接口环节：基于RAG（检索增强生成）架构的系统，其知识库通常部署在企业的私有网络区域，通过安全的内部API接口（通常采用HTTPS with mTLS双向认证）向模型提供服务。核心风险在于，如果这些API的认证授权机制（如OAuth 2.0、API Key管理）存在缺陷，或输入输出数据未进行有效过滤和脱敏，可能导致敏感数据通过API响应被间接泄漏。

在信息系统对接与SaaS服务环节：一种常见场景是与第三方SaaS服务进行深度集成，例如与腾讯企微（企业微信）对接，将AI助手嵌入工作流程。在此模式下，即便腾讯作为供应商签署了严格的保密协议并承诺高安全性，企业仍需深刻理解数据的实际流向。关键在于确认：交互中的敏感数据是仅存储在企业自身控制的腾讯企微租户环境内，还是可能流经或暂存于腾讯的公有云基础设施，为确保信息保密性，必须通过合同条款和技术手段（如端到端加密（E2EE）、数据不落地处理）明确约束第三方供应商的数据处理行为，确保企业始终保有对自身数据的完全控制权。最安全的模式是所有敏感数据处理和模型推理均发生在企业自主管控的私有化环境中，第三方仅提供软件能力而不触碰数据。虚构输出与模型投毒。模型可能被恶意用户通过提示词注入（Prompt Injection）或“越狱”技术诱导，开展高频DDOS攻击，瘫痪校验机制，绕过安全护栏，输出其训练数据中记忆的隐私信息或执行未授权的指令。根据头部AI创业公司Anthropic与英国人工智能安全研究所及图灵研究所的联合研究结果，对模型投毒以达到影响模型输出的操作并不像大家想象的那么困难，研究通过对600M至13B的四类模型执行“投毒”（poisoning）操作，发现仅需约250份的恶意文档就可以在大模型训练阶段创造后门。后门的存在使得攻击者可以通过某些特定短语，使得模型输出高度机密数据或是输出错误信息。Anthropic的研究发现，当投毒文档数量固定时，不同规模的模型中后门攻击的成功率几乎一样。研究提示了攻击者可能使用相对少量文档实现对大规模参数模型实施投毒的可能性。

▍在场外衍生品领域的应用风险分析

场外衍生品业务高度复杂，涉及大量敏感客户信息和核心商业机密，保护客户敏感信息及公司商业机密是人工智能应用于场外衍生品场景的基本要求。上位法层面，《中华人民共和国期货和衍生品法》第五十五条给予了原则性规定“期货经营机构、期货交易场所、期货结算机构、期货服务机构及其工作人员应当依法为交易者的信息保密，不得非法买卖、提供或者公开交易者的信息”；部门规章层面，《关于促进衍生品业务规范发展的指导意见（征求意见稿）》从交易报告库角度出发，明确交易报告库应当健全监控机制、保密措施和安全防范措施，确保数据信息接收机制的安全性和可靠性，确保数据的保密性，防止数据信息被误用或滥用。不得违反保密规定或损害数据信息相关方的利益；行业实践层面，《中国证券期货市场衍生品交易主协议（2018年版）》从约束合同相对方的角度出发，其第十三条规定，“交易双方同意，对有关本协议以及本协议下交易的信息应承担保密义务，除以下情形外，未经对方事先书面同意，不得向任何其他方披露”。大模型在场外衍生品领域的应用需要特别注意对客户隐私权及公司商业机密的保护。

1、客户需求分析及销售方面的隐私泄露风险

在为客户定制衍生品方案（如奇异期权、结构性产品）时，GenAI需要分析客户的风险偏好、财务状况等敏感信息以提供个性化建议。此过程中，若提示词或交互数据保护不足，可能导致客户隐私泄露。

例如，在大模型辅助定制衍生品服务方案场景下。券商利用大模型为高净值客户设计场外期权投资组合。机构某销售人员在查询模型时，输入了包含客户身份标识和详细风险承受能力的提示词。但由于模型训练数据未被彻底清洗，且查询接口未完全加密，与机构类似的其他高净值客户的名单及其风险暴露详情可能遭遇泄漏。

2、模型训练及策略生成方面的隐私泄露风险

衍生品定价与对冲策略是金融机构的核心竞争力。若用于训练大模型的内部数据（如历史交易数据、风险参数、定价模型）包含未脱敏的敏感信息，攻击者可能通过模型逆向工程或成员推断攻击提取这些机密信息。

例如：在对冲交易场景下，衍生品经纪商使用内部交易数据训练使用其自有大模型，旨在提升其衍生品定价能力。模型使用者可能通过多次查询该模型，并分析其对不同输入的反应，成功推断出该基金特有的波动率曲面构建方法和部分核心定价参数，导致其核心策略被竞争对手知悉。

3、跨境数据流动方面的隐私泄露风险

许多全球性金融机构的业务跨越多个司法管辖区。在使用第三方大模型（其训练数据或服务器可能位于境外）时，客户数据可能无意中跨境传输，违反《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》以及欧盟GDPR等法规中关于数据本地化存储和跨境传输的严格规定。

例如：在跨境业务场景下，机构使用海外部署的大模型分析境内客户衍生品需求，尽管输入的数据进行了匿名化处理，但也可能通过提示词逆向推理客户交易行为，构成事实上的个人信息出境，面临合规风险。

4、使用第三方模型的隐私泄露风险

金融机构常依赖第三方提供的通用大模型或行业模型进行微调。这些第三方模型本身可能内置后门、存在安全漏洞，或者其供应商的数据处理政策不透明，导致接入机构的客户数据在训练或推理过程中被第三方获取或泄露，机构失去对数据的控制权。

例如：在客户实时风险监控的场景下，衍生品经纪商采购了第三方AI公司提供的“风控大模型”SaaS服务用于监控客户交易风险。后来通过安全审计发现，该第三方模型在设计上存在缺陷，会将部分客户交易数据（即使已脱敏）和查询日志回传至模型供应商的服务器进行所谓的“模型持续优化学习”，且该行为未在服务协议中明确告知金融机构。此举不仅可能导致客户数据泄露，还使得该公司的风控逻辑和业务规模被供应商掌握。

【免责声明】本文信息仅用于投资者教育之目的，不构成对投资者的任何投资建议，投资者不应当以该等信息取代其独立判断或仅根据该等信息作出决策。本文信息力求准确可靠，但对这些信息的准确性或完整性不作保证，亦不对因使用该等信息而引发或可能引发的损失承担任何责任。