RAG论文|上下文永远不够长:面向长文档集可扩展问答的结构化推理 (1/20篇) · 4月28日

📡 RAG 检索增强

2026年04月28日星期二

共 20 篇精选论文

🔥# 1

90%

上下文永远不够长：面向长文档集可扩展问答的结构化推理

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

🤗 10

现实文档问答面临文档集合增长超出LLM固定上下文窗口的挑战。现有分块处理方法存在聚合瓶颈。本文提出SLIDERS框架，通过将关键信息提取至关系数据库，利用SQL进行可扩展的结构化推理，并引入数据协调阶段以确保全局一致性。该方法在三个现有长上下文基准上超越所有基线（平均超GPT-4.1达6.6分），并在两个分别达390万和3600万token的新基准上，较次优基线分别提升约19分和32分。

⭐# 2

95%

查询性能预测能否选择正确的查询变体？评估RAG管道中的查询变体选择

Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

在检索增强生成（RAG）管道中，为每个查询变体执行全流程成本高昂。本研究探讨将查询性能预测（QPP）用于变体选择，重点关注同一信息需求下不同变体间的判别。实验发现，检索与生成目标存在系统性偏差：提升nDCG等排序指标的变体未必能生成最佳答案。尽管如此，QPP能可靠识别出优于原始查询的变体，且轻量级检索前预测器常能达到或超越更昂贵的检索后方法，为构建高效稳健的RAG系统提供了途径。

💡# 3

95%

对抗性枢纽检测器：检测检索增强生成系统中的枢纽中毒攻击

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

针对RAG（检索增强生成）系统中因向量相似性搜索而产生的“枢纽”安全漏洞（即某些项目异常频繁地出现在多样查询的检索结果中），本文提出了开源安全扫描器Hubscan。它采用多检测器架构，整合了基于中位数/MAD的稳健统计检测、聚类分布分析、查询扰动稳定性测试及跨模态攻击检测等方法。在多个对抗性基准测试中，Hubscan能以极低的误报预算实现高召回率，有效识别恶意注入内容。

🔬# 4

95%

将结构化关联数据作为智能体编排检索的记忆层

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

针对传统RAG（检索增强生成）系统将文档视为扁平文本而忽略结构化关联数据的问题，本研究探讨了利用Schema.org标记和关联数据平台提供的可解引用实体页面，能否提升标准及智能体化RAG的检索准确性与答案质量。通过跨领域对照实验发现，融合了智能体指令、导航结构和神经搜索能力的增强型实体页面格式，能显著提升答案准确性（标准RAG提升29.6%，智能体流程提升29.8%）。

📌# 5

95%

TREC 2025检索增强生成（RAG）赛道综述

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG赛道旨在推动集成检索与生成以应对复杂现实信息需求的系统研究。本届赛事引入长篇叙事性查询，以更好地反映对推理驱动响应的深度搜索需求。参赛者需设计兼顾透明度与事实依据的检索生成流程。赛道采用MS MARCO V2.1语料库及多层评估框架，涵盖相关性、完整性、归因验证与一致性分析。通过强调多层面叙事与富含归因的答案，该赛道致力于促进构建可信赖、上下文感知的RAG系统创新。

🎯# 6

95%

TaSR-RAG：面向检索增强生成的分类法引导结构化推理框架

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

针对现有RAG系统在证据选择上存在冗余、信息密度低及多跳推理脆弱等问题，本文提出TaSR-RAG框架。该框架将查询与文档表示为关系三元组，并利用轻量级双层分类法约束实体语义。面对复杂问题，TaSR-RAG将其分解为有序的三元组子查询序列，并通过结合原始三元组语义相似性与类型化三元组结构一致性的混合匹配进行逐步证据选择。实验表明，该方法在多个多跳问答基准上显著优于基线模型，并提供了更清晰的证据归因与更忠实的推理轨迹。

💎# 7

95%

超越相关性：论检索与RAG信息覆盖度的关系

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

本研究系统探讨了检索增强生成（RAG）系统中，上游检索质量与最终生成响应信息覆盖度之间的关系。通过在文本与多模态基准上进行实验，发现基于覆盖度的检索指标与生成响应的信息块覆盖度在主题和系统层面均存在强相关性。当检索目标与生成目标一致时，此关系最为显著，但更复杂的迭代式RAG流程可部分解耦生成质量与检索效果。这为使用检索指标作为RAG性能的代理提供了实证支持。

🚀# 8

95%

纠正性检索增强生成的开源复现与可解释性分析

Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

本研究对纠正性检索增强生成（CRAG）进行了完全开源复现，用维基百科API和Phi-3模型替代了原系统的专有组件。在PopQA和ARC-Challenge基准测试中，开源管道取得了与原系统相当的性能。此外，首次使用SHAP方法对CRAG的T5检索评估器进行了可解释性分析，发现其决策主要依赖命名实体对齐而非语义相似度，并识别了其在科学问题上的领域迁移局限等关键失效模式。

🧠# 9

95%

基于RAG的LLMs的保形事实性是否稳健？新指标与系统性洞察

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

针对大语言模型（LLM）的幻觉问题，研究系统评估了结合检索增强生成（RAG）与保形事实性过滤方法的可靠性与实用性。提出了考虑信息量的新评估指标，发现保形过滤在高事实性水平下因输出空洞而实用性低，且其统计保证对数据分布偏移和干扰项敏感。研究还表明，基于蕴含的轻量级验证器在性能上匹配或优于基于LLM的置信度评分器，且计算开销低100倍以上。

⚡# 10

95%

面向协变量时间序列的检索增强生成

Retrieval-Augmented Generation with Covariate Time Series

针对将检索增强生成（RAG）范式扩展到时间序列基础模型（TSFM）的挑战，特别是在数据稀缺、序列短暂、协变量耦合的高风险工业场景（如压力调节与关断阀预测性维护），本文提出了RAG4CTS框架。该框架构建了分层式、时间序列原生的知识库，以实现原始历史状态的无损存储和物理信息感知检索；设计了两阶段双加权检索机制，通过点级和多变量相似性对齐历史趋势；并采用智能体驱动的策略以自监督方式动态优化上下文。在PRSOV数据集上的大量实验表明，该框架在预测准确性上显著优于现有基线。该系统已部署于中国南方航空的Apache IoTDB中，并在两个月内成功识别一次PRSOV故障且零误报。

🌟# 11

95%

电子设计自动化中RAG微调的参数化知识与检索行为研究

Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation

本文在电子设计自动化的长文本生成任务中评估了检索增强生成（RAG）微调。研究引入了TriFEX（一种基于三元组、经人工验证的评估流程）和参数化知识精确度（PKP）指标，以分离模型内部化知识并追溯生成主张的来源。实验表明，ROUGE和BERTScore无法检测到三元组评估所揭示的事实性差异。同时，现有知识内化指标对检索敏感，其约75%的跨条件方差源于内部知识表达率（PR）的变化，而非其正确性（PKP）的变化。微调后的7B模型变体在多数指标上优于72B基线，并展现出跨条件和相关基准的泛化能力，表明小模型可被有效适配于专业任务以实现低成本本地部署。

🔎# 12

95%

大规模图RAG：利用标记属性图和资源描述框架超越传统检索增强生成，应对复杂未知搜索空间

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

针对传统检索增强生成（RAG）在搜索空间未知或文档为半/结构化时表现不佳的问题，本文提出一种新颖的端到端图RAG框架。该框架综合利用标记属性图（LPG）和资源描述框架（RDF）架构，实现了无需预设文档数量的动态检索，并消除了低效的重排序。我们提出了一种通过JSON键值对将文档转换为RDF三元组的创新方法，以促进半结构化数据的无缝集成。此外，我们为LPG提出了一个文本到Cypher的翻译框架，在实时将文本查询转换为Cypher查询时准确率超过90%。实证评估表明，图RAG在准确性、响应质量和推理能力上显著优于传统的基于嵌入的RAG，尤其适用于复杂的半结构化任务。

📊# 13

95%

TIPS：面向搜索增强大语言模型的轮次级信息势奖励塑形

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs

针对搜索增强大语言模型（LLM）在强化学习（RL）训练中因稀疏奖励和跨推理/工具调用的信用分配困难导致的优化不稳定问题，本文提出了轮次级信息势奖励塑形（TIPS）框架。TIPS基于教师模型下正确答案似然性的增加，为每个“推理+工具调用”轮次分配密集的、基于势函数的奖励，从而提供细粒度且策略不变的指导。在七个问答基准上的评估表明，TIPS consistently优于GRPO/PPO基线，并大幅提升训练稳定性。例如，使用Qwen-2.5 7B Instruct模型时，TIPS将平均精确匹配（Exact Match）和F1分数分别相对PPO提高了11.8%和13.6%。

🎓# 14

95%

面向需求工程的工业级检索增强生成框架：基于汽车制造数据的实证评估

An Industrial-Scale Retrieval-Augmented Generation Framework for Requirements Engineering: Empirical Evaluation with Automotive Manufacturing Data

本文使用真实的汽车制造文档，对检索增强生成（RAG）在工业需求工程自动化中的应用进行了全面实证评估。所提框架在提取准确率上达到98.2%，优于基线方法。混合语义-词汇检索的MRR为0.847。专家质量评估平均4.32/5.0。评估表明，该框架能减少83%的人工分析时间，并通过多供应商LLM编排节省47%成本。纵向分析揭示了需求量的显著变化与潜在风险。

🏆# 15

95%

基于指南的检索增强生成用于眼科临床决策支持

Guideline-grounded retrieval-augmented generation for ophthalmic clinical decision support

本文提出Oph-Guid-RAG，一种用于眼科临床问答与决策支持的多模态视觉RAG系统。该系统将指南页面作为独立证据单元进行图像检索，并设计了带路由与过滤的可控检索框架以减少噪声。在HealthBench基准测试中，该方法在困难子集上显著优于GPT-5.2与GPT-5.4，证明了其在需要精确循证推理的复杂病例上的有效性。

💻# 16

95%

重新思考检索增强生成中的软压缩：一种查询条件选择器视角

Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective

针对RAG中上下文过长和冗余检索的问题，现有软压缩方法因对文档进行与查询无关的“全压缩”而性能受限。本文分析了该范式的两个根本局限：不可行性与非必要性，并提出了SeleCom框架。该框架将编码器重新定义为查询条件信息选择器，通过课程学习在大规模合成QA数据集上训练。实验表明，SeleCom显著优于现有软压缩方法，性能与非压缩基线相当或更优，同时将计算和延迟降低了33.8%~84.6%。

🔗# 17

95%

通过混合文档路由检索解决金融RAG中的鲁棒性-精确度权衡问题

Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval

金融文档问答中的检索增强生成（RAG）系统面临分块检索（CBR）的跨文档混淆与语义文件路由（SFR）的精确度损失之间的权衡。本文提出混合文档路由检索（HDRR）两阶段架构：先使用SFR筛选相关文档，再在限定文档内进行分块检索。在FinDER基准上的实验表明，HDRR成功解决了该权衡，取得了最佳综合性能：平均得分提升25.2%，失败率降至6.4%，同时获得了最高的精确答案率，在所有实验组中均实现了最低失败率与最高精确度。

📈# 18

95%

CrisiSense-RAG：面向快速灾害影响评估的危机感知多模态检索增强生成框架

CrisiSense-RAG: Crisis Sensing Multimodal Retrieval-Augmented Generation for Rapid Disaster Impact Assessment

针对灾害影响评估中实时报告与高分辨率卫星影像存在时间异步性、直接融合易导致峰值灾情被低估的问题，本文提出了CrisiSense-RAG多模态检索增强生成（RAG）框架。该方法通过混合稠密-稀疏检索处理文本，并基于CLIP检索航空影像，采用异步融合逻辑优先采纳实时社会证据评估洪水峰值范围，而将影像作为结构性损害的持久证据。在飓风哈维的207个邮政编码区域零样本评估中，洪水范围平均绝对误差（MAE）为10.94%-28.40%，损害严重程度MAE为16.47%-21.65%。结果表明，该框架能在现实数据约束下为快速韧性情报提供实用且可部署的解决方案。

🛠️# 19

95%

排除以确认：用于医学问答的对比假设检索

Ruling Out to Rule In: Contrastive Hypothesis Retrieval for Medical Question Answering

标准检索器在医学检索增强生成（RAG）中常返回与查询语义相近但临床诊断不同的困难负样本。受临床鉴别诊断过程启发，本文提出对比假设检索（CHR）框架。CHR为可能正确的答案生成目标假设H+，为最可能的错误替代项生成模仿假设H-，然后通过提升与H+一致的证据并惩罚与H-一致的内容来对文档评分。在三个医学QA基准上的实验表明，CHR在所有配置下均优于五个基线，最高提升10.4个百分点，并通过实质性重定向检索而非轻量重排来减少困难负样本污染。

✨# 20

95%

RAGShield：检测政府RAG系统中的数值声明篡改

RAGShield: Detecting Numerical Claim Manipulation in Government RAG Systems

本文证明所有基于嵌入的RAG防御都存在一个根本盲点：篡改数值（如税额）产生的余弦相似度极高，无法被现有阈值检测。其根本原因是嵌入编码主题而非数值精度。RAGShield通过直接操作提取的数值来规避此问题：它使用基于模式的引擎识别政府文本中的金额和百分比，通过两阶段上下文传播将每个数值链接到其管辖实体，并对照语料库构建的跨源注册表验证每个声明。在430次基于真实IRS文档的攻击测试中，RAGShield实现了100%检测率。

数据来源：arXiv
由智能助手@AIIA Lab 生成