推荐系统新范式:从被动曝光工具到主动决策助手的DeepResearch框架

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | RUC AI Box

作者 | 欧柯杉, 吴诚颢

机构 | 中国人民大学

研究方向 | 推荐系统

论文信息

论文题目: Deep Research for Recommender Systems

论文链接: https://arxiv.org/abs/2603.07605

仓库链接: https://github.com/RUCAIBox/RecPilot

现有的推荐系统技术底座已从传统的协同过滤，一路演进至复杂的神经网络（如序列推荐模型），并迈入了大语言模型时代。然而，多数工业级系统仍受限于传统的“工具型”交互范式——仅向用户曝光商品列表，将探索、对比和信息综合的重担全都扔给了用户。

为突破这一瓶颈，我们提出了一种新的推荐系统范式：Deep Research for Recommender Systems 。这一框架试图从根本上改变推荐系统的交互方式——不再仅仅提供推荐列表，而是为用户生成结构化的决策报告。

一、核心动机

当前主流推荐系统的基本工作流程可以概括为：

1. 根据用户历史行为建模兴趣

2. 从候选池中检索相关物品

3. 对候选物品进行排序

4. 将结果以列表形式展示给用户

这种模式本质上是一种 “工具”：系统负责筛选信息，但决策过程仍然主要由用户完成。

以电商平台为例，一个典型的购买流程通常包含：

浏览推荐列表
点击多个商品
阅读商品详情
比较不同商品
最终做出购买决策

尽管推荐系统已经帮助用户缩小了搜索范围，但探索、比较与信息整合的成本仍然主要由用户承担。

与此同时，在信息检索领域，一种被称为 Deep Research 的新模式正在兴起：系统通过智能代理自动检索信息，并最终生成一份综合报告。

这一思路为推荐系统提供了新的启发：

如果推荐系统不仅能找到商品，还能替用户完成探索和分析，并最终生成决策报告，会发生什么？

基于这一思路，我们提出了推荐系统的 Deep Research 范式，并设计了相应的多智能体框架 RecPilot 。该工作首次从根本上转变推荐系统的交互界面，实现了传统“以商品为中心的展示列表”向“以用户为中心的决策支持报告”的跨越。

在 RecPilot 中，智能体充当了用户的全权代理。它不仅主动代替用户在海量商品库中进行深度的探索轨迹模拟，还会将收集到的候选商品信息进行系统化整合。最终智能体从不同决策角度生成排序列表，并将结果整合成一份结构化、可解释的综合决策报告，从而辅助用户做出快速、明智的选择。

RecPilot 实现了推荐系统从“被动曝光工具”到“主动决策助手”的转变，将繁杂的商品比较与信息分析工作完全交给系统，真正将用户从信息过载、冗杂交互以及沉重的决策负担中解放出来。

二、方法：RecPilot 多智能体推荐框架

RecPilot 框架由两个核心模块协同工作：用户轨迹模拟智能体与自进化报告生成智能体。

1. 用户轨迹模拟智能体：

面对海量商品，让用户自行在商品空间中进行筛选不仅耗时，还容易产生“探索疲劳”。该模块的目标是主动替用户在商品库中完成探索过程。

捕捉意图演化轨迹：RecPilot 采用动作引导的聚合策略对用户行为进行结构化建模，使模型能够关注用户意图在不同交互阶段之间的状态转移，并自回归地学习从“广泛浏览”到“最终下单”的完整演化过程。
基于无模型过程奖励的强化学习：仅依赖监督学习（SL）容易使模型过度拟合历史行为模式，从而限制探索能力。为提升轨迹生成的多样性与泛化能力，RecPilot 引入强化学习机制，并设计多维度奖励信号，包括结果奖励、过程语义一致性以及路径逻辑约束。这使得模型不仅能够定位最终目标，还能保证探索路径的合理性与多样性。
构建高置信候选集：在推理阶段，智能体会并行展开多条探索路径，以模拟用户意图可能的不同演化方向，并据此构建高置信度的候选商品集合。

2. 自进化报告生成智能体：

在获得初步筛选的候选商品后，如果仅将商品列表直接呈现给用户，仍然难以真正降低用户的决策成本。因此，该模块负责对候选商品进行进一步分析，并生成结构化的推荐报告。

Rubric–Experience 双通道建模：为了让推荐不仅“准确”，而且“有理有据”，系统构建了两个互补的偏好视角。一方面，Rubrics 表示基于商品属性构建的结构化评价维度，用于在统一标准下对不同商品进行数值化比较；另一方面，Experience 表示从用户文本或行为中提取的情境化经验信号，用于捕捉用户的隐式偏好。
基于多方面兴趣拆解的候选排序：复杂的购买意图往往包含多个考量维度。大模型会根据用户的探索轨迹总结核心诉求，将宏观兴趣拆解为多个具体子维度。随后，在每个细分维度下独立进行商品评分与对比，从而实现多视角的推荐分析。
无需训练的闭环自进化：用户兴趣具有动态变化特性。RecPilot 能够根据用户后续的真实反馈（如最终购买行为）自动更新属性权重，并固化新的偏好经验，在无需重新训练模型的情况下持续优化推荐效果，实现“越用越懂用户”。

最终生成的结构化报告包含四大模块：

模拟探索路径
用户意图总结
综合推荐列表
各维度推荐物品分析

通过这种方式，推荐系统不再只是提供商品列表，而是输出一份可解释的决策支持报告。

三、实验结果

我们在 TMALL 真实交互数据集上对 RecPilot 进行了系统评测，从轨迹模拟能力与报告生成质量两个方面验证方法的有效性。

轨迹模拟评估：在预测用户购买行为的任务中，RecPilot 显著优于传统序列推荐（SASRec、BERT4Rec）以及先进的多行为/推理增强推荐基线（如 MBSTR、ReaRec）。进一步的消融实验表明：高质量的用户探索轨迹模拟是提升推荐性能的关键因素。通过显式建模用户从“探索”到“决策”的行为路径，RecPilot 能够更准确地刻画用户意图，从而获得更优的推荐效果。

报告生成评估：引入大模型模拟用户与真人双重盲测，构建了准确性、覆盖率、信息量、清晰度、一致性与新颖性六大指标。在与 Plan-and-Solve 等强大 Agent 基线的 Head-to-Head 对比中，RecPilot 全面占优，特别是在“新颖性”维度取得了 77% 的显著胜率，证明了其多方面兴趣拆解机制在挖掘潜在长尾兴趣上的优越性。

四、案例分析

让我们通过一个真实的“买冰箱”场景来看看 RecPilot 的作用：

传统列表模式：系统只会给你展示一排冰箱的图片、标题和价格。你必须一个个点进去看参数：这台是几门的？那台费不费电？这个过程非常耗时费力
RecPilot 深度报告模式：首先展示探索轨迹，告诉你 AI 是怎么进行比对和筛选的，增加信任感；

接着提取意图摘要，明确你的核心诉求（比如：三门冰箱、智能控温）；
提供首选推荐帮你快速做决定；
再提供多方面推荐，比如明确列出“追求大容量”可以选哪款，“注重节能”可以选哪款，逻辑清晰，一目了然。

通过这份报告，用户的对比负担被大幅减轻，推荐系统真正成为了一位懂你的“专属智能导购” 。

五、结语

RecPilot 为下一代推荐系统形态提供了一种新的思路。该框架通过模拟用户在商品空间中的探索过程，并自动生成结构化的推荐报告（如意图总结、横向比较与多维度分析），将推荐系统从传统的信息筛选工具升级为能够直接支持用户决策的智能助手。

我们认为，这一范式尤其适用于决策成本较高的商品场景。在实际系统设计中，结合传统快速推荐与深度分析报告的双模式推荐系统，可能是一种更具实用性的部署方式。

随着 LLM 与智能体技术的发展，我们相信：

未来的推荐系统不仅要回答“推荐什么”，还将回答 “为什么推荐”以及“如何做出决策”。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

推荐系统新范式:从被动曝光工具到主动决策助手的DeepResearch框架

论文信息

一、核心动机

二、方法：RecPilot 多智能体推荐框架

1. 用户轨迹模拟智能体：

2. 自进化报告生成智能体：

三、实验结果

四、案例分析

五、结语

关于我们

wang

猜你喜欢

论文信息

一、核心动机

二、方法：RecPilot 多智能体推荐框架

1. 用户轨迹模拟智能体：

2. 自进化报告生成智能体：

三、 实验结果

四、 案例分析

五、结语

关于我们

wang

猜你喜欢

三、实验结果

四、案例分析