AI 研究助理不抄你的文件,但它的搜索记录会拼出你的机密

把一份机密文档交给一个会上网的 AI agent ，让它一边读你的内部资料、一边联网查公开信息，最后写成一份报告。整个过程里，它一个字都没把你的文件发出去。

那它泄密了吗？

ServiceNow AI Research 在 6 月 18 号挂出的一篇研究（配套博客《 MosaicLeaks: Can your research agent keep a secret?》）给的答案是：泄了，而且你很难发现。问题不在文件被发出去，在 agent 为了完成任务、自己发出去的那一连串搜索词。

"You can't prompt privacy in. You have to train it in. （隐私不是靠提示词加进去的，得训进去。）"

这句话是这篇论文的结论。下面说说他们是怎么测出来的，以及为什么在提示词中要求大模型别泄密基本没用。

先想清楚：对手只看搜索记录，能拼出什么

设定是这样的。一个 deep research agent （深度研究型 agent ，能多轮检索、读文档、调工具、最后产出报告的那类）手里有两样东西：一批私密的企业文档，和一个联网搜索的工具。它的任务是把两边的信息揉在一起，写出一份多跳（ multi-hop ，需要跨多个信息源串联推理）的研究报告。

对手呢，看不到那批文档，也看不到最终报告。它只能看到一样东西——agent 发出去的每一条 web 查询。然后试着倒推：这家公司到底在查什么、那些私密事实是什么。

这就是情报分析里早就有的老问题。一条公开的招聘启事、一张卫星图、一份财报附注，单看都不算秘密；但一个训练有素的分析员能把它们拼回成一张你本不想给的全图。 OSINT （ open-source intelligence ，公开来源情报）干的就是这事。 MosaicLeaks 把这套逻辑搬到了 AI agent 身上，名字里的"马赛克"就是这个意思：每块马赛克都模糊无害，拼起来是张清晰的脸。

举个具体的： agent 在读一份没公开的并购意向书，里面提到目标公司和一个不寻常的交割日期。它不会傻到把日期原样搜出去。但它可能先查"某行业 2026 年监管窗口"，再查"某公司近期董事会变动"，再查"某地反垄断审查周期"。每一条都像正常的背景调研。合在一起，对手就能反推出那个交割日期和那桩还没公布的交易。

图： MosaicLeaks 的核心机制（来源： ServiceNow AI Research 官方博客）。 agent 三条看似普通的搜索，被只能看到查询日志的对手拼成"意图→答案→可验证的私密事实"——右边三档正是论文定义的三级泄露。

他们怎么把这事测成一个数

光讲故事不够，得能打分。研究者搭了一个有 1001 条多跳研究链的数据集（ 559 条训练、 98 条验证、 344 条测试），每条链都模拟一次"读私密文档 + 联网查资料"的真实研究流程。

图：一次 agent 研究任务的执行时间线（来源：同上）。横轴是秒数，四行是四个推理跳（ hop ），颜色对应 plan / 检索 / 选文档 / 读文档 / 给结论——多跳研究就是这样一步步把私密文档和公开检索咬合起来的，对手要盯的就是中间那些黄色的检索动作。

泄露被拆成三个层级，从轻到重：

•意图泄露（ intent leakage ）：对手能猜出 agent 在调查什么问题。

•答案泄露（ answer leakage ）：对手只靠查询日志，就能答对那个私密问题。

•全信息泄露（ full-information leakage ）：对手能主动说出可被验证的私密事实，不用人提示。

判分不靠人肉看，而是让一个对手模型只拿着查询日志去重建私密信息，重建得越准，泄露分越高。

真正反直觉的地方：越会干活，越会泄密

如果到这儿你以为"那把模型训得更强不就行了"，结果正好相反。

研究里有三组数字，摆在一起看：

- **基线模型**：严格任务成功率 48.7%，泄露率 34.0%。

- **只按任务表现做 RL 训练**：成功率升到 59.3%——泄露率也跟着飙到 51.7%。 - **PA-DR （隐私感知训练）**：成功率 58.7%，泄露率压到 9.9%。

（以上为 Qwen3-4B-Instruct 上的结果，来自官方论文。）

图：任务表现 vs 隐私泄露的权衡（来源：同上， Qwen3-4B ）。横轴越靠右任务越成功，纵轴越低越不泄密。只按结果 / 任务表现训练的点都被推到右上角（成绩好、泄露高），只有 PA-DR （绿线）把点拉到了右下——成绩几乎不掉，泄露却腰斩。

中间那行是重点。当你只奖励 agent "把活干漂亮"，它会学得更主动、查得更细、把私密文档和公开信息咬合得更紧——于是任务做得更好，泄露也更狠。把任务表现和隐私安全放在一起优化时，它们是打架的。这不是 bug ，是目标函数自己长出来的行为。

那加一句"注意保护隐私"的提示词呢？论文的说法是：几乎没用，泄露只降了一点点。这就是开头那句"prompt 不进去"的由来。

那他们怎么压下去的

PA-DR 全称 Privacy-Aware Deep Research （隐私感知的深度研究），是个强化学习框架，核心是给 agent 两套奖励一起算账：

一套是情境化的任务奖励（ situational task rewards ）——把 agent 每一步的决策，跟"在同一阶段、拿着同样信息的其他尝试"去比。研究者说这种打分方式比只看最终结果的奖励，样本效率高出 5 到 6 倍。

另一套是学出来的隐私奖励——一个分类器专门估算每条查询的泄露风险，既看单条查询直接泄了多少，也看它和别的查询拼起来的"马赛克"风险。

图：三种奖励方式的信用分配对比（来源：同上）。红框是被施加隐私惩罚的查询——PA-DR 既惩罚单条就泄密的查询，也惩罚那些拼起来才构成马赛克泄露的查询。

两套合在一起做信用分配（ credit assignment ，把最终的好坏拆回到每一步该记谁的功过），结果是：泄露率压到比没训练的基线还低，任务成绩却基本没掉。有意思的是，训练后的 agent 反而发出了更多查询——但每条都更含糊，砍掉了那些会暴露身份的具体数字和日期。它没有少干活，是学会了"把话说得更碎"。

这篇研究拿了 ACM CAIS 2026 的最佳论文。

这对正在上 agent 的企业意味着什么

现在企业部署 deep research agent 的标准姿势，恰恰就是把内部知识库接进去、再给它联网检索的权限。提示词层面的"别泄密"挡不住，靠人去审 agent 发出的成百上千条查询也不现实。论文给的方向是把隐私作为训练目标之一压进模型——但那是模型厂商和有训练能力的团队才做得了的事，不是企业接个 API 就能解决的。

所以真正悬而未决的问题是：在能用上"训过隐私"的 agent 之前，那些已经把私密文档喂给联网 agent 的团队，手里这段时间的查询记录，到底流到哪儿了、谁看得到？

先想清楚：对手只看搜索记录，能拼出什么

他们怎么把这事测成一个数

真正反直觉的地方：越会干活，越会泄密

那他们怎么压下去的

这对正在上 agent 的企业意味着什么

相关资料