金融 AI Agent 爆发:摩根士丹利开放万亿渠道,信审/催收/客服将被重写?

2026年6月4日 | AI Daily 深度分析

开篇：华尔街不再把 AI 当玩具

2026年6月3日，摩根士丹利做了一件华尔街没人做过的事——向第三方 AI Agent 开放其财富管理平台。不是内部试点，不是 PoC 项目，而是正式打开万亿级资产的渠道大门，让 AI Agent 可以直接触达客户、推荐产品、管理组合。

同一天，Meta 向 WhatsApp Business 全球用户正式推出 AI Agent，按 token 用量收费；NVIDIA 发布专为 AI Agent 设计的 Vera CPU；Agent 监控基础设施公司 Coralogix 宣布完成 $2 亿美元融资。

这三件事放在一起看，结论只有一个：AI Agent 在金融领域的规模化落地，从「能不能做」进入了「怎么做才能不翻车」的阶段。

我在信贷风控、贷后催收、客服系统做了近十年产品，经历过从规则引擎到机器学习的转型，也正在经历从「AI 赋能系统」到「基于 AI 做系统」的范式迁移。这篇文章，我想从金融 PM 的视角，拆解 Agent 在金融业的落地路线图。

一、三个信号：为什么现在是拐点

信号 1：摩根士丹利开放万亿渠道

摩根士丹利这次开放的不是技术接口，而是业务渠道。具体来说：

第三方 AI Agent 可以通过平台 API 获取客户画像、风险偏好、资产配置建议
Agent 可以直接向客户推荐金融产品，完成 KYC（了解你的客户）合规流程
交易执行仍需人类确认，但决策链条已被压缩到「AI 推荐 → 人工确认 → 执行」

这意味着什么？金融机构从「自己做 AI」转向「让 AI 进来做业务」。 这是一个底层逻辑的变化——AI 不再是后台的效率工具，而是前台的业务参与者。

信号 2：基础设施层正在成熟

Coralogix 融资 $2 亿美元，定位 AI Agent 监控基础设施。在我们自己的催收 Agent 项目中，最头疼的问题之一就是「Agent 做了一件事，但没人知道它为什么这么做」。Agent 行为监控、异常检测、合规审计——这些是金融 Agent 进入生产环境的硬门槛。

基础设施层的资本涌入，说明市场已经意识到：Agent 落地不是一个模型问题，而是一个工程和治理问题。

信号 3：成本模型开始清晰

Perplexity CEO Aravind Srinivas 提出一个新指标：「每瓦特产生的最大价值」将成为 AI 竞赛的胜负手。 在金融场景，这翻译成 PM 的语言就是：一个 Agent 替代一个人工座席，投入多少、产出多少、容错成本多少？

Uber 今年的案例提供了反面教材——鼓励员工「尽量多用 AI」，结果 4 个月烧光全年预算，紧急设限。金融业的 AI 投入不能走这条路：ROI 必须可量化，否则就是烧钱。

二、金融 Agent 落地三阶段：辅助 → 协同 → 自主

金融场景的特殊性在于：你不能让 AI 犯一个 10 万元的错误来学习。 所以落地的节奏必须是渐进的——从低风险场景到高风险场景，从人决策到人确认再到人监督。

阶段一：辅助（Co-pilot）— 现在大多数机构所在的位置

定义：AI 提供信息和建议，人类做最终决策。

场景	AI 做什么	人类做什么	当前成熟度
信审辅助	读取申请材料 → 提取关键字段 → 匹配规则 → 给出预审批建议	审核 AI 建议，处理边界案例，签字放款	⭐⭐⭐⭐ 已规模化
催收策略建议	分析借款人行为 → 推荐催收话术和时机 → 预测还款概率	选择策略，执行沟通，处理情绪化场景	⭐⭐⭐ 部分落地
客服知识库	检索产品文档、历史工单 → 生成回答草稿	确认准确性后发送，处理投诉升级	⭐⭐⭐⭐ 已规模化

真实案例：我在做银行零售经营贷风控模型时，信审员的典型工作流是：打开申请表 → 查征信 → 核对收入证明 → 计算 DTI（债务收入比）→ 给出额度建议。AI 辅助后，前面 4 步被压缩为「看一眼 AI 的预填结果」，信审员的时间从 15 分钟/单降到 3 分钟/单，但放款决策权始终在人类手里。

这一阶段的 PM 核心任务：不是替代人，是压缩重复劳动。ROI 来自效率提升，而非人力替代。

阶段二：协同（Co-worker）— 头部机构正在推进

定义：AI 执行标准化任务，人类处理例外和审批。

场景	AI 做什么	人类做什么	关键挑战
自动化信审	标准案件（额度 < 5 万、信用分 > 700）全自动审批	只审核被 AI 标记为「不确定」的案件	规则边界定义、合规审计追溯
AI 催收坐席	执行标准话术的外呼、发送还款提醒、回答常见问题	处理情绪激动客户、协商还款方案、升级法律流程	多轮对话可靠性、合规话术约束
智能客服 Agent	80% 的标准问答、工单创建、信息查询	投诉处理、情感安抚、复杂问题升级	幻觉控制、知识库时效性

真实案例：在催收系统建设中，AI 催收坐席的 ROI 是最容易算的——

一个 M1（逾期 1-30 天）人工催收员：  年薪成本：10-15 万/年（含社保、场地、管理成本）  日均处理：80-120 通电话  回款率（M1）：15-25%一个 AI 催收 Agent：  年成本：2-5 万/年（推理算力 + 语音通道 + 维护）  日均处理：300-500 通电话（7×24h）  回款率（M1）：10-20%（受限于「无威慑力」，策略上更偏提醒而非施压）

ROI 逻辑：不是 1:1 替换，而是 AI 覆盖标准化案件 + 人类聚焦高价值/高难度案件。一个 100 人的催收团队，AI 可以吃掉 60% 的工作量，剩下 40 人专注于协商、诉讼等高附加值环节。

这一阶段的 PM 核心任务：设计人机协作的边界——什么情况 AI 可以自主执行，什么情况必须交给人类，什么情况 AI 先尝试但人类最终确认。这个边界不是技术问题，是业务风险和用户体验的权衡。

阶段三：自主（Agent）— 3-5 年的目标

定义：AI Agent 自主完成端到端任务，人类仅在关键节点监督或事后审计。

场景	想象	挑战
财富管理 Agent	理解客户长期财务目标 → 自主调整资产配置 → 在触发条件满足时自动执行再平衡	合规、信托责任、市场异常处理
信贷全流程 Agent	从获客 → 信审 → 放款 → 贷后监控 → 催收，全流程 AI 驱动	监管审批、数据隐私、模型可解释性
反欺诈 Agent	实时检测异常交易 → 自动冻结可疑账户 → 生成调查报告	误拦截代价大、法律追责链

摩根士丹利开放 Agent 渠道，本质上是在为阶段三做准备——先跑通「Agent 推荐 → 人确认」的闭环，再逐步增加 Agent 的自主权。 这不是一个技术开关，而是一个信任累积过程。

但阶段三有一个根本性问题：「幻觉」在金融场景不可接受。 一个客服说错产品信息，客户投诉；一个信贷 Agent 算错授信额度，坏账。金融 PM 需要建立的是一个「容错深度」框架——

错误类型	可接受度	应对策略
话术不够精准	中	人工审核 + A/B 测试优化
推荐的产品非最优	中	给客户多个选项，不替客户做决策
计算金额出错	零容忍	关键数值必须走确定性的计算模块，不能靠 LLM 生成
违规操作（绕过合规）	零容忍	硬编码安全边界，Agent 指令中嵌入不可覆盖的约束

三、金融场景 Agent 技术栈：三个赛道，三套方案

不同金融场景对 Agent 的技术要求差异巨大。以下是我在实际项目中总结的三个典型赛道的技术选择：

维度	信审 Agent	催收 Agent	客服 Agent
核心交互	结构化数据 → 规则匹配 → 输出决策	多轮语音对话 + 情绪识别	文本问答 + 工单操作
LLM 角色	辅助提取非结构化字段（收入证明、合同）	对话生成 + 意图理解	知识检索 + 回答生成
确定性组件	规则引擎（额度计算、DTI校验）	话术模板约束 + 合规过滤器	FAQ 精确匹配 + 知识库
Agent 模式	Plan-Execute（规划 → 执行 → 校验）	ReAct（思考 → 说话 → 听回复 → 调整）	RAG + Tool Use（检索 → 生成 → 操作）
评测指标	审批准确率、误拒率	回款率、合规话术覆盖率	首解率、幻觉率、用户满意度
最大风险	错批导致坏账	违规话术导致合规风险	错误信息导致客户投诉
推荐 LLM	小模型（7B-13B）混合规则引擎	中等模型（13B-70B）+ 语音模型	RAG + 通用大模型

技术选型自检清单

在选技术方案前，问自己三个问题：

这个环节能接受多大的误差？ 信审金额计算 → 零容忍 → 不用 LLM 算。催收话术 → 可以有小偏差 → LLM 生成 + 模板约束。
这个环节的执行频率和标准化程度？ 高频标准化 → Agent 自主。低频高复杂度 → Co-pilot 辅助。
这个环节出问题的代价？ 客服说错话 → 道歉+补偿。催收违规 → 监管罚款 → 硬编码约束。信审错批 → 坏账 → 规则引擎兜底。

四、踩坑实录：我在金融系统落地 AI 时踩过的坑

坑 1：幻觉在金融场景的代价不是「不准」，是「信任崩塌」

在我们实时辅助系统的早期版本中，AI 给催收员提示话术时，偶尔会「编造」一些政策条文——说得有模有样，但法规编号和条款内容是虚构的。

教训：金融 Agent 的可靠性和淘宝客服 Agent 不是一个量级的需求。解决方案是三个层次：

检索层：关键信息（产品条款、利率、法规）必须走精确检索，不能靠模型记忆
校验层：输出中涉及金额、利率、日期的字段，用正则或规则引擎二次校验
审计层：Agent 每一步「为什么做这个决定」必须可追溯，方便合规审查

坑 2：Agent 的「自信但错误」问题

ZDNet 编辑实测 Microsoft 365 Copilot Agent，描述是：「回复自信流利，但准确度不足。」这不是一个技术 Bug，是 Agent 产品的系统性挑战——LLM 天然倾向于给出一个「看起来合理」的答案，而不是「我不知道」。

在催收场景，如果一个 Agent 对借款人说出「根据您的情况，可以申请减免 50% 利息」——这句话可能完全是幻觉，但借款人会信以为真。一旦无法兑现，就不是用户体验问题，而是法律风险。

教训：Agent PM 需要设计「安全回退」机制——当模型不确定性高于阈值时，Agent 应该说「我帮您转接人工」，而不是硬编一个答案。

坑 3：成本不是「便宜」，但算账的人不一定是 PM

Uber 4 个月花光全年 AI 预算的案例，在金融业更容易发生——因为金融业务的客单价比网约车高得多，「花了就花了」的心态更普遍。

但 PM 如果不管成本，Agent 项目会死在一个诡异的地方：试点效果好（因为用量小、人工审核充分），规模化后 ROI 崩塌（因为推理成本线性增长、人工审核跟不上）。 一个 Agent 每天处理 500 通电话的成本可能是可以接受的，但 5000 通呢？50000 通呢？PM 必须在设计阶段就把「规模化的边际成本」算进去。

坑 4：合规不是「加上就行」，是「从第一天就要嵌入」

金融 Agent 和通用 Agent 最大的区别不在于技术，在于约束是刚性的。

通用 Agent 出差错：道歉、修复、继续
金融 Agent 出差错：监管函、罚款、许可证吊销

我们做催收系统时，话术必须符合《个人信息保护法》和行业监管要求——不能威胁、不能泄露、不能在非工作时间联系。这些约束不是「Prompt 里加一句」，而是要硬编码到 Agent 的工具调用和输出校验层。

五、落地决策框架：你的第一笔金融 Agent 投哪里？

作为 PM，当你被问到「我们应该在哪个业务线先上 Agent」，你需要一个决策框架，而不是「看领导意思」。

5.1 评估矩阵：什么业务先上 Agent？

维度	权重	评分标准
任务标准化程度	30%	高（流程清晰，分支有限）→ 3分；低（每次都不一样）→ 1分
人工成本密度	25%	高（大量人力做重复工作）→ 3分；低（少数高价值专家）→ 1分
容错空间	25%	大（出错可补救，影响小）→ 3分；小（出错代价巨大）→ 1分
数据就绪度	20%	好（有结构化数据、历史工单）→ 3分；差（数据散乱）→ 1分

5.2 典型业务线评分（示例）

业务线	标准化	人工成本	容错	数据	总分	优先级
客服 FAQ	3	2	3	3	2.80	🥇 第一优先
M1 催收提醒	3	3	2	3	2.80	🥇 第一优先
信审辅助	3	2	1	3	2.30	🥈 第二优先
反欺诈检测	2	1	1	2	1.50	🥉 审慎推进
投资建议	1	1	1	2	1.20	⚠️ 暂缓

5.3 Agent 项目 ROI 速算公式

年化 ROI = (节省的人力成本 - Agent 年化总成本) / Agent 年化总成本 × 100%其中：  节省的人力成本 = 被替代的座席数 × 单人年成本 × 覆盖率  Agent 年化总成本 = 推理算力 + 平台服务费 + 运维人力 + 持续优化成本

一个现实例子（催收 M1）：

被替代座席数：60 人单人年成本：12 万覆盖率：80%（剩下 20% 高难度案件仍需人工）节省的人力成本 = 60 × 12万 × 0.8 = 576 万/年Agent 年化总成本：  推理算力（13B 模型 + 语音）：80 万/年  平台服务 + 运维：30 万/年  持续优化（数据标注、Prompt 迭代）：40 万/年  合计：150 万/年年化 ROI = (576 - 150) / 150 × 100% = 284%

这个数字告诉你为什么市场在疯狂押注 Agent。 但前提是——你选的业务线确实能跑通 80% 的覆盖率。如果覆盖率只有 30%，ROI 就是负的。PM 的核心决策不是「做不做 Agent」，而是「第一批 Agent 投在哪」。

总结：金融 Agent 的 5 条军规

#	军规	一句话解释
1	容错深度决定落地节奏	先上「错了可道歉」的客服，再上「错了可纠正」的信审，最后上「错不起」的资金交易
2	LLM 只做它擅长的事，确定性组件做它该做的事	金额计算走规则引擎，话术生成走 LLM，不混用
3	Agent 不说「我不知道」是最大的风险	设计安全回退机制，不确定性大于阈值 → 交给人类
4	PM 必须算规模化成本，不能只看试点	试点跑通了 ≠ 规模化能盈利
5	合规不是 Prompt 里一句话，是硬编码+审计链	关键约束不能靠「请遵守XXX法规」，要写进代码

摩根士丹利开了第一枪。接下来，会是中国的招商银行、蚂蚁集团、微众银行——还是你的产品？

金融 AI Agent 的窗口期就在未来 12-18 个月。做 PM 的，与其等领导说「我们要做 Agent」，不如先把这篇文章甩过去：「要落 Agent，先回答这 5 个问题。」

下一篇预告：Agent 时代 AI 产品经理的技能刷新——从设计功能到设计行为。