把一份机密文档交给一个会上网的 AI agent ,让它一边读你的内部资料、一边联网查公开信息,最后写成一份报告。整个过程里,它一个字都没把你的文件发出去。
那它泄密了吗?
ServiceNow AI Research 在 6 月 18 号挂出的一篇研究(配套博客《 MosaicLeaks: Can your research agent keep a secret?》)给的答案是:泄了,而且你很难发现。问题不在文件被发出去,在 agent 为了完成任务、自己发出去的那一连串搜索词。
这句话是这篇论文的结论。下面说说他们是怎么测出来的,以及为什么在提示词中要求大模型别泄密基本没用。
先想清楚:对手只看搜索记录,能拼出什么
设定是这样的。一个 deep research agent (深度研究型 agent ,能多轮检索、读文档、调工具、最后产出报告的那类)手里有两样东西:一批私密的企业文档,和一个联网搜索的工具。它的任务是把两边的信息揉在一起,写出一份多跳( multi-hop ,需要跨多个信息源串联推理)的研究报告。
对手呢,看不到那批文档,也看不到最终报告。它只能看到一样东西——agent 发出去的每一条 web 查询。然后试着倒推:这家公司到底在查什么、那些私密事实是什么。
这就是情报分析里早就有的老问题。一条公开的招聘启事、一张卫星图、一份财报附注,单看都不算秘密;但一个训练有素的分析员能把它们拼回成一张你本不想给的全图。 OSINT ( open-source intelligence ,公开来源情报)干的就是这事。 MosaicLeaks 把这套逻辑搬到了 AI agent 身上,名字里的"马赛克"就是这个意思:每块马赛克都模糊无害,拼起来是张清晰的脸。
举个具体的: agent 在读一份没公开的并购意向书,里面提到目标公司和一个不寻常的交割日期。它不会傻到把日期原样搜出去。但它可能先查"某行业 2026 年监管窗口",再查"某公司近期董事会变动",再查"某地反垄断审查周期"。每一条都像正常的背景调研。合在一起,对手就能反推出那个交割日期和那桩还没公布的交易。

图: MosaicLeaks 的核心机制(来源: ServiceNow AI Research 官方博客)。 agent 三条看似普通的搜索,被只能看到查询日志的对手拼成"意图→答案→可验证的私密事实"——右边三档正是论文定义的三级泄露。
他们怎么把这事测成一个数
光讲故事不够,得能打分。研究者搭了一个有 1001 条多跳研究链的数据集( 559 条训练、 98 条验证、 344 条测试),每条链都模拟一次"读私密文档 + 联网查资料"的真实研究流程。

图:一次 agent 研究任务的执行时间线(来源:同上)。横轴是秒数,四行是四个推理跳( hop ),颜色对应 plan / 检索 / 选文档 / 读文档 / 给结论——多跳研究就是这样一步步把私密文档和公开检索咬合起来的,对手要盯的就是中间那些黄色的检索动作。
泄露被拆成三个层级,从轻到重:
判分不靠人肉看,而是让一个对手模型只拿着查询日志去重建私密信息,重建得越准,泄露分越高。
真正反直觉的地方:越会干活,越会泄密
如果到这儿你以为"那把模型训得更强不就行了",结果正好相反。
研究里有三组数字,摆在一起看:
- **基线模型**:严格任务成功率 48.7%,泄露率 34.0%。
- **只按任务表现做 RL 训练**:成功率升到 59.3%——泄露率也跟着飙到 51.7%。 - **PA-DR (隐私感知训练)**:成功率 58.7%,泄露率压到 9.9%。
(以上为 Qwen3-4B-Instruct 上的结果,来自官方论文。)

图:任务表现 vs 隐私泄露的权衡(来源:同上, Qwen3-4B )。横轴越靠右任务越成功,纵轴越低越不泄密。只按结果 / 任务表现训练的点都被推到右上角(成绩好、泄露高),只有 PA-DR (绿线)把点拉到了右下——成绩几乎不掉,泄露却腰斩。
中间那行是重点。当你只奖励 agent "把活干漂亮",它会学得更主动、查得更细、把私密文档和公开信息咬合得更紧——于是任务做得更好,泄露也更狠。把任务表现和隐私安全放在一起优化时,它们是打架的。这不是 bug ,是目标函数自己长出来的行为。
那加一句"注意保护隐私"的提示词呢?论文的说法是:几乎没用,泄露只降了一点点。这就是开头那句"prompt 不进去"的由来。
那他们怎么压下去的
PA-DR 全称 Privacy-Aware Deep Research (隐私感知的深度研究),是个强化学习框架,核心是给 agent 两套奖励一起算账:
一套是情境化的任务奖励( situational task rewards )——把 agent 每一步的决策,跟"在同一阶段、拿着同样信息的其他尝试"去比。研究者说这种打分方式比只看最终结果的奖励,样本效率高出 5 到 6 倍。
另一套是学出来的隐私奖励——一个分类器专门估算每条查询的泄露风险,既看单条查询直接泄了多少,也看它和别的查询拼起来的"马赛克"风险。

图:三种奖励方式的信用分配对比(来源:同上)。红框是被施加隐私惩罚的查询——PA-DR 既惩罚单条就泄密的查询,也惩罚那些拼起来才构成马赛克泄露的查询。
两套合在一起做信用分配( credit assignment ,把最终的好坏拆回到每一步该记谁的功过),结果是:泄露率压到比没训练的基线还低,任务成绩却基本没掉。有意思的是,训练后的 agent 反而发出了更多查询——但每条都更含糊,砍掉了那些会暴露身份的具体数字和日期。它没有少干活,是学会了"把话说得更碎"。
这篇研究拿了 ACM CAIS 2026 的最佳论文。
这对正在上 agent 的企业意味着什么
现在企业部署 deep research agent 的标准姿势,恰恰就是把内部知识库接进去、再给它联网检索的权限。提示词层面的"别泄密"挡不住,靠人去审 agent 发出的成百上千条查询也不现实。论文给的方向是把隐私作为训练目标之一压进模型——但那是模型厂商和有训练能力的团队才做得了的事,不是企业接个 API 就能解决的。
所以真正悬而未决的问题是:在能用上"训过隐私"的 agent 之前,那些已经把私密文档喂给联网 agent 的团队,手里这段时间的查询记录,到底流到哪儿了、谁看得到?
夜雨聆风