RAG论文|TIDE:通过模板引导迭代实现主动的多问题发现 (1/20篇) · 6月9日

📡 RAG 检索增强

2026年06月09日星期二

共 20 篇精选论文

🔥# 1

60%

TIDE：通过模板引导迭代实现主动的多问题发现

TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration

🤗 41

现有智能体通常仅响应用户显式请求，难以发现用户未察觉的隐藏问题。本文提出TIDE框架，旨在从用户上下文中主动发现多个隐藏问题，要求提供证据和具体行动方案。TIDE包含两项核心机制：迭代发现（每轮生成少量候选问题，并基于已发现问题扩展覆盖范围）和思维模板（复用已解决问题的模式，指导关注特定上下文信号并关联至可识别问题类别）。在个人工作空间和软件仓库两个场景下的实验表明，TIDE在任务覆盖率、识别和解决方面显著优于单次预测及并行多智能体基线方法。

⭐# 2

95%

检索增强生成中的证据图一致性：幻觉检测的模型依赖性分析

Evidence Graph Consistency in Retrieval-Augmented Generation: A Model-Dependent Analysis of Hallucination Detection

检索增强生成（RAG）虽能减少大语言模型（LLM）幻觉，但无法完全消除。现有检测方法依赖生成答案与检索段落间的平面相似性，忽略了证据与答案主张间的结构关系。本文提出证据图一致性（EGC）框架，为每个回答构建局部证据图，并计算五种结构一致性指标作为幻觉信号。在RAGTruth问答数据集上对六个LLM的评估发现，图一致性特征在Llama-2模型中能有效诊断幻觉，但在GPT-4、GPT-3.5和Mistral-7B中却出现系统性反转。这表明不同模型家族的幻觉模式存在质的不同，基于嵌入的图一致性无法作为模型无关的幻觉检测信号。

💡# 3

95%

TA-RAG：面向同伴支持健康沟通的语调感知检索增强生成

TA-RAG: Tone-Aware Retrieval-Augmented Generation for Peer-Support Health Communication

检索增强生成（RAG）虽能将大语言模型（LLM）输出锚定于可信文档，但仅事实性锚定不足以满足敏感的同伴支持健康沟通需求（如HIV支持）。此类回应还需易于理解、无污名化、共情且个性化。本文提出TA-RAG，一个轻量级、基于提示的语调感知RAG框架，无需微调即可将显式语调控制嵌入RAG流程。该框架从四个核心维度实现语调控制：无污名化重写、可读性调整、接收者适应和共情重述。基于HIV在线学习资源、术语指南、可读性指标、同伴支持标准及共情数据集的评估表明，TA-RAG各组件在保留关键内容的同时，有效提升了目标沟通维度的质量，证明了基于提示的语调控制是使RAG输出适用于敏感健康沟通的可行方向。

🔬# 4

95%

对抗性枢纽检测器：检测检索增强生成系统中的枢纽中毒攻击

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

针对RAG（检索增强生成）系统中因向量相似性搜索而产生的“枢纽”安全漏洞（即某些项目异常频繁地出现在多样查询的检索结果中），本文提出了开源安全扫描器Hubscan。它采用多检测器架构，整合了基于中位数/MAD的稳健统计检测、聚类分布分析、查询扰动稳定性测试及跨模态攻击检测等方法。在多个对抗性基准测试中，Hubscan能以极低的误报预算实现高召回率，有效识别恶意注入内容。

📌# 5

95%

将结构化关联数据作为智能体编排检索的记忆层

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

针对传统RAG（检索增强生成）系统将文档视为扁平文本而忽略结构化关联数据的问题，本研究探讨了利用Schema.org标记和关联数据平台提供的可解引用实体页面，能否提升标准及智能体化RAG的检索准确性与答案质量。通过跨领域对照实验发现，融合了智能体指令、导航结构和神经搜索能力的增强型实体页面格式，能显著提升答案准确性（标准RAG提升29.6%，智能体流程提升29.8%）。

🎯# 6

95%

TREC 2025检索增强生成（RAG）赛道综述

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG赛道旨在推动集成检索与生成以应对复杂现实信息需求的系统研究。本届赛事引入长篇叙事性查询，以更好地反映对推理驱动响应的深度搜索需求。参赛者需设计兼顾透明度与事实依据的检索生成流程。赛道采用MS MARCO V2.1语料库及多层评估框架，涵盖相关性、完整性、归因验证与一致性分析。通过强调多层面叙事与富含归因的答案，该赛道致力于促进构建可信赖、上下文感知的RAG系统创新。

💎# 7

95%

TaSR-RAG：面向检索增强生成的分类法引导结构化推理框架

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

针对现有RAG系统在证据选择上存在冗余、信息密度低及多跳推理脆弱等问题，本文提出TaSR-RAG框架。该框架将查询与文档表示为关系三元组，并利用轻量级双层分类法约束实体语义。面对复杂问题，TaSR-RAG将其分解为有序的三元组子查询序列，并通过结合原始三元组语义相似性与类型化三元组结构一致性的混合匹配进行逐步证据选择。实验表明，该方法在多个多跳问答基准上显著优于基线模型，并提供了更清晰的证据归因与更忠实的推理轨迹。

🚀# 8

95%

超越相关性：论检索与RAG信息覆盖度的关系

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

本研究系统探讨了检索增强生成（RAG）系统中，上游检索质量与最终生成响应信息覆盖度之间的关系。通过在文本与多模态基准上进行实验，发现基于覆盖度的检索指标与生成响应的信息块覆盖度在主题和系统层面均存在强相关性。当检索目标与生成目标一致时，此关系最为显著，但更复杂的迭代式RAG流程可部分解耦生成质量与检索效果。这为使用检索指标作为RAG性能的代理提供了实证支持。

🧠# 9

95%

纠正性检索增强生成的开源复现与可解释性分析

Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

本研究对纠正性检索增强生成（CRAG）进行了完全开源复现，用维基百科API和Phi-3模型替代了原系统的专有组件。在PopQA和ARC-Challenge基准测试中，开源管道取得了与原系统相当的性能。此外，首次使用SHAP方法对CRAG的T5检索评估器进行了可解释性分析，发现其决策主要依赖命名实体对齐而非语义相似度，并识别了其在科学问题上的领域迁移局限等关键失效模式。

⚡# 10

95%

基于RAG的LLMs的保形事实性是否稳健？新指标与系统性洞察

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

针对大语言模型（LLM）的幻觉问题，研究系统评估了结合检索增强生成（RAG）与保形事实性过滤方法的可靠性与实用性。提出了考虑信息量的新评估指标，发现保形过滤在高事实性水平下因输出空洞而实用性低，且其统计保证对数据分布偏移和干扰项敏感。研究还表明，基于蕴含的轻量级验证器在性能上匹配或优于基于LLM的置信度评分器，且计算开销低100倍以上。

🌟# 11

95%

RAISE：将RAG设计视为架构搜索问题

RAISE: RAG Design as an Architecture Search Problem

检索增强生成（RAG）系统涉及查询重写、分块、检索深度等多重设计选择，实践中常依赖启发式配置，阻碍了系统评估与复现。本文主张将此挑战形式化为RAG架构搜索问题。为此，我们引入RAG智能搜索引擎（RAISE），一个用于RAG超参数优化的综合框架与基准，它在标准化搜索空间和预算下评估优化方法。RAISE实现了13种搜索算法，并在7个公开数据集上进行了评估。实验表明，优化性能高度依赖任务，单一策略难以通用，RAISE为相关研究提供了公平、可复现的实验基础。

🔎# 12

95%

面向协变量时间序列的检索增强生成

Retrieval-Augmented Generation with Covariate Time Series

针对将检索增强生成（RAG）范式扩展到时间序列基础模型（TSFM）的挑战，特别是在数据稀缺、序列短暂、协变量耦合的高风险工业场景（如压力调节与关断阀预测性维护），本文提出了RAG4CTS框架。该框架构建了分层式、时间序列原生的知识库，以实现原始历史状态的无损存储和物理信息感知检索；设计了两阶段双加权检索机制，通过点级和多变量相似性对齐历史趋势；并采用智能体驱动的策略以自监督方式动态优化上下文。在PRSOV数据集上的大量实验表明，该框架在预测准确性上显著优于现有基线。该系统已部署于中国南方航空的Apache IoTDB中，并在两个月内成功识别一次PRSOV故障且零误报。

📊# 13

95%

电子设计自动化中RAG微调的参数化知识与检索行为研究

Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation

本文在电子设计自动化的长文本生成任务中评估了检索增强生成（RAG）微调。研究引入了TriFEX（一种基于三元组、经人工验证的评估流程）和参数化知识精确度（PKP）指标，以分离模型内部化知识并追溯生成主张的来源。实验表明，ROUGE和BERTScore无法检测到三元组评估所揭示的事实性差异。同时，现有知识内化指标对检索敏感，其约75%的跨条件方差源于内部知识表达率（PR）的变化，而非其正确性（PKP）的变化。微调后的7B模型变体在多数指标上优于72B基线，并展现出跨条件和相关基准的泛化能力，表明小模型可被有效适配于专业任务以实现低成本本地部署。

🎓# 14

95%

大规模图RAG：利用标记属性图和资源描述框架超越传统检索增强生成，应对复杂未知搜索空间

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

针对传统检索增强生成（RAG）在搜索空间未知或文档为半/结构化时表现不佳的问题，本文提出一种新颖的端到端图RAG框架。该框架综合利用标记属性图（LPG）和资源描述框架（RDF）架构，实现了无需预设文档数量的动态检索，并消除了低效的重排序。我们提出了一种通过JSON键值对将文档转换为RDF三元组的创新方法，以促进半结构化数据的无缝集成。此外，我们为LPG提出了一个文本到Cypher的翻译框架，在实时将文本查询转换为Cypher查询时准确率超过90%。实证评估表明，图RAG在准确性、响应质量和推理能力上显著优于传统的基于嵌入的RAG，尤其适用于复杂的半结构化任务。

🏆# 15

95%

TIPS：面向搜索增强大语言模型的轮次级信息势奖励塑形

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs

针对搜索增强大语言模型（LLM）在强化学习（RL）训练中因稀疏奖励和跨推理/工具调用的信用分配困难导致的优化不稳定问题，本文提出了轮次级信息势奖励塑形（TIPS）框架。TIPS基于教师模型下正确答案似然性的增加，为每个“推理+工具调用”轮次分配密集的、基于势函数的奖励，从而提供细粒度且策略不变的指导。在七个问答基准上的评估表明，TIPS consistently优于GRPO/PPO基线，并大幅提升训练稳定性。例如，使用Qwen-2.5 7B Instruct模型时，TIPS将平均精确匹配（Exact Match）和F1分数分别相对PPO提高了11.8%和13.6%。

💻# 16

95%

SF-RAG：面向学术问答的结构保真检索增强生成

SF-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Question Answering

针对现有RAG（检索增强生成）方法将学术论文扁平化为无结构文本块，破坏其固有层次结构并导致检索碎片化与证据分配不准的问题，本文提出SF-RAG框架。该框架将论文的层次结构视为低熵检索先验，首先构建结构保真索引以从源头防止熵增，进而设计路径引导检索机制，将查询语义对齐至相关章节，并在固定令牌预算下选择高相关性的根到叶路径，从而生成紧凑、连贯的低熵检索上下文。在三个QA基准上的评估显示，SF-RAG显著减少了检索碎片化，改善了证据分配，并驱动了更优的答案质量。

🔗# 17

95%

检索增强的LLM智能体：学会从经验中学习

Retrieval-Augmented LLM Agents: Learning to Learn from Experience

为使大语言模型（LLM）智能体在未见任务上实现稳健泛化，本文系统研究了如何训练检索增强的LLM智能体以有效利用上下文中的检索轨迹。首先，我们建立了基于LoRA的监督微调（SFT）方案，其性能优于多个先进智能体训练流程。其次，详细分析了经验检索的关键设计选择，确定了存储、查询和轨迹选择的最佳策略。最后，提出将经验检索集成到微调流程中的方法。结果表明，这种结合方法显著提升了对未见任务的泛化能力，为构建“学会学习”的智能体提供了一个可扩展的有效框架。

📈# 18

95%

MDER-DR：基于实体中心摘要的多跳问答方法

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

针对知识图谱（KG）检索增强生成（RAG）中文本被简化为三元组导致上下文信息丢失、影响多跳问答性能的问题，本文提出一个领域无关的KG问答框架。其核心是MDER索引方法（生成上下文衍生的三元组描述并与实体级摘要整合）和DR检索机制（将查询分解为可解析的三元组并进行迭代推理）。实验表明，该LLM驱动的流水线在标准与领域特定基准上较标准RAG基线有显著提升（最高达66%），且保持跨语言鲁棒性。

🛠️# 19

95%

向量RAG与LLM编译维基：一项针对小型多领域研究的预注册比较

Vector RAG vs LLM-Compiled Wiki: A Preregistered Comparison on a Small Multi-Domain Research

本研究预注册比较了两种辅助LLM在小规模研究文献集上答题的方法：单轮向量RAG系统与LLM编译的Markdown维基。结果显示，维基在跨文献综合上优势明显，但在答案组织性上优势经调整后不显著；RAG在单事实查找问题上达标。成本分析显示维基查询令牌消耗远超预期。探索性分析表明，基于声明的引用支持维基更优，而分解式RAG变体以更低成本恢复了维基在综合上的大部分优势。结论指出，扎实的研究综合并非单一能力，不同架构在证据组织、引用支持与成本上各有优劣。

✨# 20

95%

MARQUIS：面向视频检索增强生成的三阶段流程

MARQUIS: A Three-Stage Pipeline for Video Retrieval-Augmented Generation

现有视频检索增强生成方法在处理复杂查询与多视频信息综合时存在不足。为此，我们提出MARQUIS三阶段流程：通过查询扩展、融合与重排序提升检索；进行校准的结构化证据抽取；基于证据生成可归因文本。在MAGMaR2026任务中，检索性能（nDCG@10）从0.195提升至0.759；文章生成质量在人类评分上超越基线，且MARQUIS-RLM在非QA系统中取得了最强的引用召回率。

数据来源：arXiv
由智能助手@AIIA Lab 生成