检索增强生成(RAG)的架构和增强技术有哪些?2026年最新前沿综述
AIAI Summary (BLUF)
通过优化检索器、生成器及混合架构,并引入上下文过滤与解码控制,RAG系统可有效解决大语言模型的事实不一致与领域局限问题,提升生成结果的准确性与鲁棒性。
Retrieval-Augmented Generation (RAG): A Survey on Architectures, Enhancement Techniques, and Robustness Frontiers
本文是提交至 ACM TOIS 期刊的预印本。未经许可,请勿分发最终版本。
摘要
检索增强生成(RAG)已成为一种强大的范式,通过在推理时检索外部证据来增强大语言模型(LLM)的生成能力。尽管 RAG 解决了参数化知识存储的关键限制——如事实不一致性和领域不灵活性——但它也带来了检索质量、事实锚定保真度、流程效率以及对噪声或对抗性输入的鲁棒性等新挑战。本综述全面梳理了 RAG 系统的最新进展,提出了一个分类法,将架构分为检索器中心型、生成器中心型、混合型和鲁棒性导向型设计。我们系统分析了在检索优化、上下文过滤、解码控制和效率提升等方面的增强技术,并辅以在短格式和多跳问答任务上的性能比较分析。此外,我们回顾了最先进的评估框架和基准测试,重点介绍了检索感知评估、鲁棒性测试和联邦检索设置方面的趋势。我们的分析揭示了检索精度与生成灵活性、效率与忠实性、模块化与协调性之间反复出现的权衡。最后,我们指出了开放的挑战和未来的研究方向,包括自适应检索架构、实时检索集成、基于多跳证据的结构化推理以及隐私保护检索机制。本综述旨在整合 RAG 研究的当前知识,并为下一代检索增强语言建模系统奠定基础。
关键词:检索增强生成,查询重构,上下文过滤,重排序,多跳推理,幻觉缓解,鲁棒性,动态检索,评估基准,联邦检索,忠实性,效率优化,文档排序,大语言模型对齐,开放域问答
1. 引言
大语言模型(LLM)在自然语言任务上展现出了令人印象深刻的泛化能力,但其对静态、参数化知识的依赖仍然是一个根本性的限制。这限制了它们处理需要最新、可验证或特定领域信息查询的能力,常常导致幻觉或事实不一致。
检索增强生成(RAG)通过将预训练的语言模型与非参数化的检索模块相结合来解决这个问题,后者在推理时获取外部证据。通过基于检索到的文档进行生成,RAG 系统提供了更高的透明度、事实锚定能力以及对不断发展的知识库的适应性。这些特性使得 RAG 成为开放域问答、生物医学推理、知识驱动对话和长上下文摘要等任务的核心技术。
然而,将检索与生成相结合带来了独特的挑战:检索噪声和冗余会降低输出质量;检索到的证据与生成文本之间的错位可能导致幻觉;流程的低效率和延迟使得大规模部署成本高昂。此外,在模块化与紧密的检索-生成交互之间取得平衡,仍然是一个开放的架构权衡问题。
在本综述中,我们首先根据核心创新发生的位置——在检索器内部、生成器内部或通过它们的联合协调——提出了一个高层次的 RAG 架构分类法。我们从 RAG 的数学公式和组件背景开始,然后探讨检索策略、过滤和控制机制的进展。我们进一步分析了 RAG 系统的基准测试方法,比较了主要框架,并以开放的研究挑战和未来方向作为总结。
2. 检索增强生成的背景与基础
检索增强生成(RAG)是一个通过文档检索为大型语言模型(LLM)提供外部知识访问的框架。它的基本理念是,生成有根据且可验证的响应不仅需要存储在模型权重中的参数化知识,还需要对动态证据语料库的非参数化访问。本节概述了 RAG 系统的核心组件,并介绍了支撑其设计的数学公式。
2.1. RAG 系统的组件
在高层次上,一个 RAG 系统由三个模块组成:
查询编码器:将输入 x 编码为查询表示 q,用于检索相关文档。这可以是神经编码器或基于规则的模板。
检索器:给定查询 q,检索器从语料库 C 中获取一个排序的文档列表 d1, d2, ..., dk。检索器可以是稀疏的(如 BM25)、密集的(如 DPR)、混合的或生成式的。
生成器:生成器以输入 x 和检索到的文档 di 为条件,生成最终输出 y。这通常是一个预训练的 Transformer 模型(如 T5, BART, GPT)。
2.2. 数学公式
形式上,检索增强生成(RAG)中的生成过程可以表示为对条件分布的建模:
P(y | x) = Σ_{d∈C} P(y | x, d) · P(d | x)
where:
其中:
x 是输入(例如,一个问题或提示),d 是从语料库 C 中检索到的文档,y 是生成的响应。
在实践中,通过检索 top-k 文档 d1, ..., dk 来近似求和,得到:
P(y | x) ≈ Σ_{i=1}^{k} P(y | x, di) · P(di | x)
这种分解反映了两个关键概率:
P(di | x):给定输入 x 时文档 di 的相关性分数,通常由检索器或重排序器得出。P(y | x, di):在给定 x 和文档 di 的条件下生成输出 y 的概率,由语言模型建模。
RAG 的变体在如何估计和组合这些组件方面有所不同。有些使用固定的检索器,让生成器处理噪声输入,而另一些则联合优化检索和生成,以最大化下游任务的效用。
3. RAG 架构分类法
为了将检索增强生成(RAG)的最新进展置于背景中,我们提出了一个分类法,根据其架构重点——检索器中心型、生成器中心型、混合型和鲁棒性导向型设计——对现有系统进行分类。这种分类突出了关键的设计模式,并说明了不同框架如何应对检索、事实锚定和可靠性的核心挑战。
3.1. 基于检索器的 RAG 系统
基于检索器的检索增强生成(RAG)系统将架构责任主要委托给检索器,将生成器视为被动解码器。这些系统的运作前提是,检索到的上下文的保真度和相关性是生成准确且有根据的输出最关键的因素。该领域的创新通常属于以下三种设计模式之一:输入侧查询增强、检索器侧适应和检索粒度优化。
查询驱动检索:一种突出的策略侧重于在检索前细化和结构化用户意图,以最大限度地与相关语料片段对齐。这包括分解、重写、生成式重构以及结合结构化先验来指导检索。
检索器中心型适应:另一项工作通过架构增强或任务特定学习来修改检索器本身。
粒度感知检索:这种模式通过优化检索单元——从完整文档到细粒度、语义对齐的片段——来解决检索精度问题。
这些模式中的每一种都将创新锚定在检索器中,保持了模块化和可解释性。然而,它们也带来了在延迟、冗余以及对模糊或未明确指定查询的敏感性方面的权衡。
3.2. 基于生成器的 RAG 系统
基于生成器的 RAG 系统将架构创新集中在解码过程上,假设检索到的内容足够相关,并将事实锚定和整合的负担转移给语言模型。这些系统通过自验证、压缩和受控生成等机制来提高输出质量。
4. 核心组件与架构对比
4.1. 核心组件概览
根据综述,RAG系统通常包含检索器和生成器两大核心组件。检索器负责从外部知识库中查找相关文档,生成器则基于检索到的上下文信息进行内容生成。
According to the survey, a RAG system typically consists of two core components: the retriever and the generator. The retriever is responsible for finding relevant documents from an external knowledge base, while the generator produces content based on the retrieved context.
4.2. 主流 RAG 架构类型对比
综述提出了RAG架构的分类法,主要包括检索器中心型系统、生成器中心型系统、混合型系统以及鲁棒性导向型设计,每种架构侧重不同的优化方向。
The survey proposes a taxonomy of RAG architectures, primarily including retriever-centric systems, generator-centric systems, hybrid systems, and robustness-oriented designs, each focusing on different optimization directions.
为了更清晰地展示不同架构类型的特点与权衡,我们将其核心维度总结如下表:
| 架构类型 | 主要优势 | |||
|---|---|---|---|---|
| 查询增强、检索器适应、粒度优化 | 高模块化、可解释性强、检索质量可控 | 延迟可能较高、对模糊查询敏感、检索冗余 | 开放域问答、需要高精度检索的任务 | |
| 自验证、上下文压缩、受控生成 | 能处理噪声输入、生成质量高、灵活性好 | 对检索质量依赖假设、可能产生幻觉、计算开销大 | 知识密集型对话、长文本摘要 | |
| 混合型 | 检索与生成联合优化、端到端训练 | 整体性能更优、组件间协调性好 | 架构复杂、训练成本高、可解释性降低 | 复杂多跳推理、对忠实性要求极高的任务 |
| 对抗性训练、噪声注入、故障安全机制 | 系统稳定性高、抗干扰能力强 | 可能牺牲部分精度或效率、设计复杂度高 | 面向公众的开放服务、对抗性环境 |
5. 主要挑战与未来方向
综述指出RAG面临检索质量、事实锚定保真度、流程效率、对噪声输入的鲁棒性等挑战,并存在检索精度与生成灵活性、效率与忠实性之间的权衡问题。
The survey points out that RAG faces challenges such as retrieval quality, grounding fidelity, pipeline efficiency, and robustness to noisy inputs, along with trade-offs between retrieval precision and generation flexibility, and between efficiency and faithfulness.
未来的研究方向包括自适应检索架构、实时检索集成、基于多跳证据的结构化推理以及隐私保护检索机制等,旨在推动下一代检索增强语言建模系统的发展。
Future research directions include adaptive retrieval architectures, real-time retrieval integration, structured reasoning over multi-hop evidence, and privacy-preserving retrieval mechanisms, aiming to advance the next generation of retrieval-augmented language modeling systems.
常见问题(FAQ)
RAG系统主要有哪些核心组件?
RAG系统主要由检索器和生成器两大核心组件构成。检索器负责从外部知识库中查找相关文档,生成器则基于检索到的上下文信息进行内容生成,两者协同工作以增强大语言模型的输出。
RAG架构主要分为哪几种类型?
根据综述提出的分类法,RAG架构主要分为检索器中心型、生成器中心型、混合型以及鲁棒性导向型设计。不同类型的架构在检索精度、生成灵活性和系统效率等方面各有侧重。
RAG技术主要解决了大语言模型的哪些局限性?
RAG技术主要解决了大语言模型在参数化知识存储上的局限性,如事实不一致性、领域不灵活性以及无法获取最新信息的问题,通过检索外部证据来提供更准确、可验证的生成内容。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



