RAG中常用的检索模型有哪些？

常见的检索模型包括神经网络嵌入（如OpenAI嵌入）、BM25、TF-IDF以及混合搜索，它们通过不同算法从文档集中检索和排序相关信息。

RAG相比纯生成模型有什么优势？

RAG结合了检索模型的准确性和生成模型的创造性，能生成更基于事实、上下文相关的文本，解决了纯生成模型可能存在的准确性不足问题。

什么是RAG检索增强生成？2026年AI大模型核心技术解析

Q: RAG技术具体是如何工作的？

RAG首先通过检索模型从知识库中查找与查询相关的信息，然后将这些检索结果作为上下文输入给生成模型，从而生成更准确、相关的文本。

在自然语言处理领域，检索增强生成将外部知识检索与大语言模型生成相结合的技术，通过向量数据库存储和检索相关信息来增强模型的准确性和时效性。是一种结合了检索式模型和生成式模型优势的技术，旨在提升生成文本的质量和相关性。

In the field of natural language processing, Retrieval-Augmented Generation is a technique that combines the strengths of retrieval-based models and generative models to enhance the quality and relevance of generated text.

核心概念解析

为了深入理解 RAG，我们首先需要剖析其两大核心组成部分：检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。与生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。。

To gain a deeper understanding of RAG, we must first dissect its two core components: retrieval models and generative models.

检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。

检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。旨在从给定的文档集或知识库中检索相关信息。它们通常利用信息检索或语义搜索等技术，根据查询找出最相关的信息片段。检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。擅长寻找精确、具体的信息，但缺乏生成创造性或新颖内容的能力。

Retrieval models are designed to retrieve relevant information from a given set of documents or a knowledge base. They typically employ techniques like information retrieval or semantic search to identify the most relevant information snippets based on a query. These models excel at finding precise and specific information but lack the ability to generate creative or novel content.

生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。

生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。则旨在根据给定的提示或上下文生成新的内容。这些大语言模型利用海量训练数据学习自然语言的模式和结构。生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。能够生成富有创意且连贯的文本，但在事实准确性或特定上下文相关性方面可能有所欠缺。

Generative models, on the other hand, are designed to generate new content based on a given prompt or context. These Large Language Models leverage massive amounts of training data to learn the patterns and structures of natural language. They can produce creative and coherent text but may struggle with factual accuracy or relevance to a specific context.

RAG 的工作原理

检索增强生成将外部知识检索与大语言模型生成相结合的技术，通过向量数据库存储和检索相关信息来增强模型的准确性和时效性。将上述两种方法结合起来，以克服各自的局限性。在该框架中，首先使用检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。根据查询或上下文从知识库或文档集中检索相关信息。随后，检索到的信息被用作生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。的输入或额外上下文。

Retrieval-Augmented Generation combines these two approaches to overcome their individual limitations. In this framework, a retrieval model is first used to fetch relevant information from a knowledge base or document set based on a query or context. The retrieved information is then used as input or additional context for the generative model.

通过整合检索到的信息，生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。能够利用检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。的准确性和特异性，从而生成更相关、更准确的文本。这有助于生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。立足于现有知识，并生成与检索信息相符的文本。

By incorporating the retrieved information, the generative model can leverage the accuracy and specificity of the retrieval model to produce more relevant and accurate text. This helps ground the generative model in available knowledge and ensures the generated text aligns with the retrieved information.

常见的检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。与技术

检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。通常旨在从数据集中查找并排序与查询相关的信息片段。以下是一些流行的检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。和算法示例：

Retrieval models are generally designed to find and rank relevant pieces of information from a dataset in response to a query. Here are some examples of popular retrieval models and algorithms:

神经网络嵌入一种基于神经网络的检索方法，通过向量空间中的相似性对文档进行排名，如OpenAI和Cohere的嵌入技术。：例如 OpenAI 或 Cohere 的嵌入模型，基于向量空间中的相似性对文档进行排序。

Neural Network Embeddings: Such as OpenAI's or Cohere's embeddings, which rank documents based on their similarity in vector space.
BM25一种基于概率信息检索理论的文本检索模型，通过词频和逆文档频率对文档进行排名，考虑词项的相关性和稀有性。：一种基于概率信息检索理论的广泛使用的文本检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。。它根据词项频率和逆文档频率对文档进行排序，同时考虑词项在语料库中的相关性和稀有性。

BM25一种基于概率信息检索理论的文本检索模型，通过词频和逆文档频率对文档进行排名，考虑词项的相关性和稀有性。 (Best Match 25): A widely used text retrieval model based on probabilistic information retrieval theory. It ranks documents based on term frequencies and inverse document frequencies, considering both the relevance and rarity of terms within a corpus.
TF-IDFTerm Frequency-Inverse Document Frequency, a statistical measure used in information retrieval to evaluate word importance in documents.：一种经典的信息检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。，用于衡量词项在文档中相对于整个语料库的重要性。它结合了词频（词项在文档中出现的频率）和逆文档频率（词项在语料库中的稀有程度）来对文档的相关性进行排序。

TF-IDFTerm Frequency-Inverse Document Frequency, a statistical measure used in information retrieval to evaluate word importance in documents. (Term Frequency-Inverse Document Frequency): A classic information retrieval model that measures the importance of a term within a document relative to the entire corpus. It combines term frequency (how often a term appears in a document) and inverse document frequency (how rare the term is in a corpus) to rank documents by relevance.
混合搜索Hybrid Search，结合语义搜索、全文搜索和图遍历的检索策略，在80ms内提供最大准确度的查询结果。：结合了上述多种方法，并赋予不同的权重。

Hybrid Search: A combination of the above methodologies with different weightings.

应用场景

检索增强生成将外部知识检索与大语言模型生成相结合的技术，通过向量数据库存储和检索相关信息来增强模型的准确性和时效性。技术拥有多种应用场景。例如，在问答系统中，检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。可以找到包含答案的相关段落或文档，然后生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。基于这些信息生成简洁、连贯的回复。在内容生成任务中，如摘要或故事创作，检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。可以提供相关事实或上下文，生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。则可以利用这些信息创作出信息更丰富、更具吸引力的内容。

Retrieval-Augmented Generation has several applications. For instance, in question-answering systems, the retrieval model can find relevant passages or documents containing the answer, and the generative model can then produce a concise and coherent response based on that information. In content generation tasks, such as summarization or story writing, the retrieval model can provide relevant facts or context, which the generative model can use to create more informative and engaging content.

构建您自己的 RAG 引擎

市面上已有一些解决方案可供测试构建自己的 RAG 引擎。

There are several solutions available for testing and building your own RAG engine.

如果您对有趣的开源解决方案感兴趣，推荐查看 Haystack一个开源的RAG引擎解决方案，提供检索和生成模型的集成框架，用于构建自定义的RAG系统。。

If you are interested in an interesting open-source solution, I recommend checking out Haystack一个开源的RAG引擎解决方案，提供检索和生成模型的集成框架，用于构建自定义的RAG系统。.
LangChain一个提供RAG功能的工具，但当前版本可能不够灵活，结果优化方面存在挑战。 也提供了相关功能，但其当前的解决方案灵活性欠佳，且当结果不理想时，改进方法尚不明确。

LangChain一个提供RAG功能的工具，但当前版本可能不够灵活，结果优化方面存在挑战。 also offers this capability, but their current solution is somewhat inflexible, and it's not clear how results can be improved if they are suboptimal.

总结

总而言之，检索增强生成将外部知识检索与大语言模型生成相结合的技术，通过向量数据库存储和检索相关信息来增强模型的准确性和时效性。结合了检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。和生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。的优势，以提高生成文本的质量和相关性。通过利用检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。查找准确信息的能力以及生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。创造文本的能力，这种方法能够构建出更稳健、更贴合上下文的语言生成系统。

In summary, Retrieval-Augmented Generation combines the strengths of retrieval-based models and generative models to improve the quality and relevance of generated text. By leveraging the retrieval model's ability to find accurate information and the generative model's ability to produce creative text, this approach enables the development of more robust and contextually grounded language generation systems.

常见问题（FAQ）

RAG技术具体是如何工作的？

RAG首先通过检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。从知识库中查找与查询相关的信息，然后将这些检索结果作为上下文输入给生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。，从而生成更准确、相关的文本。

RAG中常用的检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。有哪些？

常见的检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。包括神经网络嵌入一种基于神经网络的检索方法，通过向量空间中的相似性对文档进行排名，如OpenAI和Cohere的嵌入技术。（如OpenAI嵌入）、BM25一种基于概率信息检索理论的文本检索模型，通过词频和逆文档频率对文档进行排名，考虑词项的相关性和稀有性。、TF-IDFTerm Frequency-Inverse Document Frequency, a statistical measure used in information retrieval to evaluate word importance in documents.以及混合搜索Hybrid Search，结合语义搜索、全文搜索和图遍历的检索策略，在80ms内提供最大准确度的查询结果。，它们通过不同算法从文档集中检索和排序相关信息。

RAG相比纯生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。有什么优势？

RAG结合了检索模型用于从知识库或文档集中检索相关信息的模型，常见方法包括BM25、TF-IDF、神经网络嵌入和混合搜索。的准确性和生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。的创造性，能生成更基于事实、上下文相关的文本，解决了纯生成模型基于给定提示或上下文生成新文本的模型，如大型语言模型（LLM），能够生成创造性文本但可能缺乏事实准确性。可能存在的准确性不足问题。