检索模型训练迎来“范式革命”:向AI搜索助手“拜师学艺”的时代已来-夜雨聆风

检索模型训练迎来“范式革命”:向AI搜索助手“拜师学艺”的时代已来

作者： Yuqi Zhou, Sunhao Dai, Changle Qu 等

机构： 中国人民大学高瓴人工智能学院，中国科学院计算技术研究所

引言：当检索的“用户”从人变成AI

想象一下这个场景：你向一个强大的AI研究助手提出一个复杂问题，比如“2023年诺贝尔化学奖得主在光合作用研究上的具体突破是什么？”。这个助手并不会直接给出答案，而是会像一个真正的研究员一样，思考、规划、然后行动。它可能会先搜索“2023诺贝尔化学奖”，浏览返回的摘要，发现与“量子点”有关；接着它会进一步搜索“量子点光合作用效率”，从结果中选择几篇文档浏览全文，提取关键信息；最后，它综合所有信息，生成一个结构清晰、证据详实的答案。

这，就是“搜索智能体”的典型工作模式。随着大语言模型的飞速发展，这类能够进行多步推理、主动调用搜索引擎（检索系统）来解决问题的AI助手正在成为信息获取的新入口。一个关键的转变正在发生：检索系统的主要“用户”正在从人类，悄然转变为AI智能体本身。

然而，当前的检索模型（无论是BM25、还是各种稠密向量检索模型）几乎都是在为人类服务的目标下训练出来的。它们的学习数据来源于人类的点击日志、停留时间等行为，隐含地假设了“人类用户会如何提问、如何浏览、如何判断相关性”。当使用这些模型的“用户”变成了行为模式迥异的AI智能体时，一个根本性的错配就产生了：训练目标和实际用途严重不符。

今天，来自中国人民大学和中国科学院的研究团队在论文《Learning to Retrieve from Agent Trajectories》中，正式提出了一个全新的检索训练范式：从智能体轨迹中学习检索。他们指出，既然检索模型是为智能体服务的，那就应该直接向智能体“拜师学艺”，从它们与检索系统交互产生的“轨迹”中学习。这篇论文不仅系统性地分析了智能体轨迹中蕴藏的丰富信号，更提出了一个简单而有效的框架 LRAT，成功地将这些信号转化为训练检索模型的“燃料”。

图1：检索范式的根本性转变。传统检索模型（左）从人类行为数据中学习，服务于人类用户；而智能体时代的检索模型（右）应从智能体自身的交互轨迹中学习，以更好地支持其多步推理和问题解决。

智能体轨迹：一座未被开采的“金矿”

首先，我们需要理解什么是“智能体轨迹”。在深度研究任务中，智能体遵循经典的“思考-行动”循环。给定一个初始问题，它会生成一系列步骤：

【思考】：分析当前状况，总结已有信息，明确下一步需要查找什么。
【行动】：执行一个动作，通常是搜索（生成一个查询词，获取TOP-K个文档摘要）或浏览（选择之前某个搜索结果中的一篇文档，请求阅读全文）。
【观察】：接收行动的结果（搜索返回的摘要列表，或浏览得到的文档全文）。
重复此过程，直到智能体认为信息足够，最终生成答案。

这个完整的执行序列，就是一条“智能体轨迹”。它忠实记录了智能体在解决问题过程中的每一次“心跳”：它问了什么、看到了什么、选择了什么、又基于此思考了什么。

论文团队收集并分析了由强大的开源研究智能体Tongyi-DeepResearch-30B在InfoSeekQA数据集上产生的超过3.4万条有效轨迹。通过对这些轨迹的深入挖掘，他们发现了几个颠覆传统认知、却对训练检索模型至关重要的关键信号。

发现一：浏览行为是任务成功的“必要条件”

智能体不是每次搜索都会浏览文档。数据分析显示，成功完成任务的轨迹（最终答案正确）与失败的轨迹（答案错误）在行为上有显著差异。

成功轨迹：搜索后更倾向于浏览文档，浏览与搜索的比值（B/S）较高。
失败轨迹：往往陷入“只搜索、不浏览”的循环，发出大量搜索但很少深入查看内容。

更关键的是，任务成功率与浏览过的证据文档数量呈强正相关，而从未浏览过任何文档的轨迹，成功率直接降为0。这说明，对于智能体而言，浏览不是可选项，而是完成任务的关键步骤。因此，被智能体浏览过的文档，天然就是潜在的“正面样本”候选。

图2：轨迹分析。(a) 成功与失败轨迹中“搜索”到“浏览”的转换概率差异显著。(b) 任务成功率随浏览的证据文档数量增加而上升，零浏览则失败。

发现二：“未被浏览”的文档是可靠的“负面样本”

在传统基于人类点击的训练中，一个巨大的难题是“位置偏差”：用户没点击一篇文档，可能不是因为不相关，而是因为它排得太靠后根本没被看到。因此，如何从未点击中筛选出真正的负样本非常棘手。

然而，在智能体轨迹中，情况截然不同。分析发现，智能体的浏览行为对排名位置不敏感。它们会公平地审视结果列表中的各个位置，而不是只盯着最前面的几个。这意味着，在一次搜索返回的TOP-K结果中，如果智能体浏览了其中一篇，而“跳过”了其他篇，那么这些被跳过的文档很有可能是智能体经过审视后主动拒绝的，而不是“没看到”。因此，所有未被浏览的文档，都可以相对安全地视为高质量的负样本，无需复杂的去偏处理。

发现三：浏览后的“思考”是相关性强度的“指示器”

浏览行为本身是一个二值信号（看/没看），但文档的价值显然有高低之分。幸运的是，智能体在浏览文档后立即生成的“思考”文本，提供了更细腻的信号。

论文发现，浏览后产生的“思考”文本的长度，与文档的价值高度相关。

浏览了关键证据文档后，智能体往往会进行更长的推理，试图整合新信息。
浏览了无关或低价值文档后，思考通常会很短，比如“这篇没用，继续找”。
整体上，最终成功的轨迹，其平均“后浏览思考”长度远高于失败的轨迹。

这就像人类的“停留时间”，越长通常意味着文档越相关、越有用。因此，“后浏览思考”的长度，可以作为衡量文档相关性强度的天然指标。

图3：浏览文档后，智能体“思考”文本的令牌长度分布。更长的思考往往意味着文档引发了更深度的信息处理和整合。

LRAT框架：将轨迹“炼”成检索模型

基于以上三大发现，研究团队提出了 LRAT 框架。它的核心思想是：从智能体轨迹中自动化地挖掘高质量、带权重的训练数据，用来微调检索模型。整个过程如同一个精炼厂，将原始的交互“矿石”提炼成监督学习的“燃油”。

图4：LRAT框架示意图。从轨迹中挖掘信号、过滤噪声、估计权重，最终用于对比学习训练。

第一步：从“搜索-浏览”转换中挖掘初始信号

这是最基础的监督信号来源。每当智能体执行了一次【搜索】行动，紧接着又执行了一次【浏览】行动时，我们就构建一个训练样本：

查询：搜索时生成的查询词。
正面文档：被浏览的那篇文档。
负面文档：同一次搜索返回的、但未被浏览的所有其他文档。

这一步直接利用了发现一和发现二。

第二步：用“后浏览思考”过滤噪声

并非所有被浏览的文档都有用。智能体可能看走眼，浏览后发现文档无用。这时，发现三就派上用场了。

LRAT引入一个 “LLM法官”（例如Qwen3-30B），让它阅读浏览后的思考文本，判断“智能体是否明确表示从该文档中获得了有用信息”。如果判断为“无关”，则将该正面样本剔除。实验证明，这个简单的过滤能保留97.2%的真正证据文档，同时过滤掉一部分明显的噪声，大幅提升了正样本的质量。

第三步：用思考长度估计“相关性强度”

不同的有用文档，价值也不同。LRAT创新性地将“后浏览思考长度”转化为一个连续的相关性权重。

受启发于用户行为分析中的“时间感知点击模型”，研究者设计了一个基于指数饱和函数的权重计算公式：

其中是思考长度，是一个尺度参数（设置为数据集中思考长度的中位数）。这个公式的直观意义是：思考长度的增加带来的边际效用递减，最终权重会趋于饱和。这样，引发了深度思考的文档会获得更高的训练权重。

第四步：加权对比学习

最后，使用标准的双编码器架构（如Qwen-Embedding）进行训练。但损失函数不是普通的InfoNCE损失，而是加权InfoNCE损失。每个正样本的损失项会乘以上一步计算出的权重。这样，模型会更多地关注那些对智能体推理过程贡献更大的文档对。

实验结果：全面且一致的提升

论文在InfoSeek-Eval（域内）和BrowseComp-Plus（域外）两个深度研究基准上，对LRAT进行了全面评估。他们测试了多种检索模型（Qwen3-Embedding, E5-Large）和多种智能体（从4B的AgentCPM到358B的GLM-4.7），结果令人振奋。

核心发现：三赢局面

检索质量更高：LRAT训练的检索器，在BrowseComp-Plus上的证据召回率显著提升（最高提升近38%）。这意味着它能更精准地找到智能体真正需要的证据文档。
任务成功率更高：配备LRAT检索器的智能体，在两个基准上的任务成功率全面超越基线，提升幅度从5%到38%不等。即使对于GLM-4.7这样的千亿级巨模型，检索器优化依然能带来超过20%的成功率提升，说明检索质量是智能体性能的关键瓶颈。
执行效率更高：智能体完成任务所需的平均步数显著减少（在InfoSeek-Eval上最多减少约30%）。这表明LRAT检索器返回的结果更“好用”，智能体能用更少的“弯路”找到答案。

图5：LRAT带来的性能增益概览。在六个不同的智能体骨架上，LRAT均能同时提升域内任务成功率（左）和域外证据召回率（右）。

消融实验：每一个设计都至关重要

图6：LRAT各组件消融实验。逐步加入“基础信号”、“思考过滤”和“权重估计”，性能持续提升。

研究团队通过消融实验验证了LRAT每个组件的必要性：

仅使用基础信号（+Naive）：已有显著提升，证明了从轨迹中挖掘监督信号的可行性。
加入思考过滤（+Filter）：性能进一步提升，说明过滤掉“浏览但无用”的噪声文档是关键。
加入权重估计（+Reweight）：达到最佳性能，证明了区分文档价值强度的重要性。

扩展性与数据飞轮：通向现实的桥梁

为了验证LRAT的实用性，论文还探讨了两个关键问题：

1. 规模扩展性：随着训练轨迹数据量的增加，LRAT的性能能否持续提升？答案是肯定的。如图7a所示，使用更多轨迹数据训练，智能体的成功率持续增长，没有出现平台期。

2. 数据飞轮：这是最具吸引力的远景。在真实世界中，智能体和检索器可以形成一个自我强化的闭环：
1. 当前检索器服务智能体，产生大量轨迹。
2. 用这些轨迹训练出更好的新检索器。
3. 新检索器上线，服务智能体产生质量更高的新轨迹。
4. 重复此过程，实现持续进化。

论文通过模拟实验证实了这个飞轮是可行的。即使使用包含失败任务的轨迹，也能有效提升检索器。在模拟的多轮迭代中，智能体成功率和检索召回率均实现了稳定、持续的提升。

图7：(a) 训练数据量增加，性能持续提升。(b) 在不同检索返回数量（Top-K）下，LRAT检索器均优于基线。

图8：数据飞轮模拟实验显示，经过多轮迭代，任务成功率和证据召回率均稳步上升。

结论与展望

这篇论文的工作具有里程碑式的意义。它清晰地指出了一个被忽视的根本性问题：在AI智能体时代，检索模型的训练范式需要变革。并率先系统地论证了智能体交互轨迹作为新型监督数据的巨大价值。

LRAT框架的成功，揭示了一条清晰且可扩展的技术路径：

数据来源：智能体执行任务时天然产生，成本极低。
信号质量：蕴含浏览、拒绝、深度思考等多种高质量信号。
效果：能显著提升检索质量、智能体任务性能和执行效率。
前景：能支撑起一个可持续进化的“数据飞轮”。

这项工作为“面向智能体的检索系统”研究打开了新的大门。未来，如何设计更高效的轨迹信号挖掘算法，如何让检索器与智能体进行更紧密的协同优化，甚至如何为不同性格、不同任务的智能体定制专属检索器，都将成为充满潜力的研究方向。

检索模型，终于开始学习如何更好地为它的新“主人”——AI搜索助手——服务了。一个从AI行为中学习、与AI共同进化的检索新时代，正在开启。

本文由AI论文热榜基于论文《Learning to Retrieve from Agent Trajectories》编译解读。论文代码、模型及主页已开源：

GitHub: https://github.com/Yuqi-Zhou/LRAT
Homepage: https://yuqi-zhou.github.io/LRAT-homepage/

关注「AI论文热榜」，紧跟最前沿、最硬核的AI技术进展！

如有论文辅导、项目开发等需求，请联系小编，微信号: GCgcong