LLM知识图谱构建器相比传统RAG，哪个检索准确性更高？（附GraphRAG实测）

LLM Knowledge Graph Builder 是一款旨在将PDF、文本文档、YouTube视频和网页等非结构化数据，转化为存储在Neo4j中的知识图谱的应用程序。它承诺提供比简单的检索增强生成（RAG）更高的准确性。

LLM知识图谱构建器是一款旨在将PDF、文本文档、YouTube视频和网页等非结构化数据，转化为存储在Neo4j中的知识图谱的应用程序。它承诺提供比简单的检索增强生成（RAG）高得多的准确性。

GraphRAG：知识图谱驱动的检索

这里的核心术语是GraphRAG中的“知识图谱”部分。这是一种强大的检索机制，超越了简单的RAG，通过利用图数据结构中丰富的上下文信息来提升生成式AI应用的能力。

这里的核心术语是GraphRAG中的“知识图谱”部分。这是一种强大的检索机制，超越了简单的RAG，通过利用图数据结构中丰富的上下文信息来提升生成式AI应用的能力。

与RAG类似，GraphRAG也基于向量技术，但其优越之处在于它还能捕捉向量之间的上下文/关系，从而在查询数据时获得更准确的答案。

与RAG类似，GraphRAG也基于向量技术，但其优越之处在于它还能捕捉向量之间的上下文/关系，从而在查询数据时获得更准确的答案。

GraphRAG示意图

让我们通过实际测试Builder来验证这一承诺是否成立。

让我们通过实际测试Builder来验证这一承诺是否成立。

实战测试：PostgreSQL与Ingres的MVCC差异

为此，我着手解答一个困扰我许久的问题：Ingres和PostgreSQL数据库管理系统都实现了多版本并发控制（MVCC），但它们的实现方式有何不同？

为此，我着手解答一个困扰我许久的问题：Ingres和PostgreSQL数据库管理系统都实现了多版本并发控制（MVCC），但它们的实现方式有何不同？

为了找到答案，我上传了四份PDF格式的文档。其中一份是关于PostgreSQL MVCC的研究论文《PostgreSQL中的可序列化快照隔离》，另外三份是与Ingres MVCC相关的资料，包括一份PowerPoint演示文稿和两份来自官方Wiki文章的PDF转储文件。这里的“上传”指的是上传到免费层级的Builder云实例中。

为了找到答案，我上传了四份PDF格式的文档。其中一份是关于PostgreSQL MVCC的研究论文《PostgreSQL中的可序列化快照隔离》，另外三份是与Ingres MVCC相关的资料，包括一份PowerPoint演示文稿和两份来自官方Wiki文章的PDF转储文件。这里的“上传”指的是上传到免费层级的Builder云实例中。

上传的文档

该工具成功摄取并解析了所有非结构化文档，随后将它们解构为语义块，并最终转化为相互关联的节点。

该工具成功摄取并解析了所有非结构化文档，随后将它们解构为语义块，并最终转化为相互关联的节点。

生成的知识图谱

交互与问答：洞察的获取

构建完成后，你可以预览生成的知识图谱，观察节点间的连接，发现事物间的关联，并最终提出迫切的问题：

构建完成后，你可以预览生成的知识图谱，观察节点间的连接，发现事物间的关联，并最终提出迫切的问题：

问：告诉我PostgreSQL MVCC和Ingres MVCC之间的区别。

问：告诉我PostgreSQL MVCC和Ingres MVCC之间的区别。

答： PostgreSQL和Ingres都实现了多版本并发控制（MVCC），但它们的实现方法存在显著差异：
1. 实现历史：

- PostgreSQL在1999年用MVCC系统取代了传统的锁管理器，使其成为其架构的核心部分。它使用版本化元组来实现快照，并确保“读取者不阻塞写入者，写入者不阻塞读取者”。*
- Ingres正在引入MVCC作为一项重大的架构变革，并且设计为可选的。现有应用程序可以在没有MVCC的情况下继续运行，而新应用程序可以利用它。*
  2. 并发行为：
- PostgreSQL使用元组级写锁来防止并发事务修改相同数据，确保快照隔离。它支持“读取者不阻塞写入者”等作为基本特性。*
- Ingres旨在分阶段实现MVCC，从2VCC（两版本并发控制）模型开始，其中读取者不阻塞写入者。然而，它尚未完全集成到系统中。*
  3. 隔离级别：
- PostgreSQL支持快照隔离以及其他隔离级别，如READ COMMITTED，确保避免脏读、不可重复读和幻读等异常。*
- Ingres计划允许在程序级别使用隔离级别来使用MVCC，但架构限制可能将其限制在数据库或实例级别。*
  4. 兼容性：
- PostgreSQL已经完全接受了MVCC，使其成为系统的默认和组成部分。*
- Ingres以保持与现有应用程序兼容的方式引入MVCC，使其成为可选项以避免中断当前工作流。*
  总之，PostgreSQL拥有成熟且深度集成的MVCC系统，而Ingres正在采用MVCC作为一项可选功能，以在保持向后兼容性的同时实现架构现代化。

答： PostgreSQL和Ingres都实现了多版本并发控制（MVCC），但它们的实现方法存在显著差异：
1. 实现历史：

PostgreSQL在1999年用MVCC系统取代了传统的锁管理器，使其成为其架构的核心部分。它使用版本化元组来实现快照，并确保“读取者不阻塞写入者，写入者不阻塞读取者”。*

Ingres正在引入MVCC作为一项重大的架构变革，并且设计为可选的。现有应用程序可以在没有MVCC的情况下继续运行，而新应用程序可以利用它。*
2. 并发行为：

PostgreSQL使用元组级写锁来防止并发事务修改相同数据，确保快照隔离。它支持“读取者不阻塞写入者”等作为基本特性。*

Ingres旨在分阶段实现MVCC，从2VCC（两版本并发控制）模型开始，其中读取者不阻塞写入者。然而，它尚未完全集成到系统中。*
3. 隔离级别：

PostgreSQL支持快照隔离以及其他隔离级别，如READ COMMITTED，确保避免脏读、不可重复读和幻读等异常。*

Ingres计划允许在程序级别使用隔离级别来使用MVCC，但架构限制可能将其限制在数据库或实例级别。*
4. 兼容性：

PostgreSQL已经完全接受了MVCC，使其成为系统的默认和组成部分。*

Ingres以保持与现有应用程序兼容的方式引入MVCC，使其成为可选项以避免中断当前工作流。*
总之，PostgreSQL拥有成熟且深度集成的MVCC系统，而Ingres正在采用MVCC作为一项可选功能，以在保持向后兼容性的同时实现架构现代化。

后续的问答进一步探讨了在Ingres中同时使用MVCC和ANSI隔离语义的影响，以及可能出现的意外行为案例。系统基于构建的知识图谱，给出了详尽且基于上下文的回答。

后续的问答进一步探讨了在Ingres中同时使用MVCC和ANSI隔离语义的影响，以及可能出现的意外行为案例。系统基于构建的知识图谱，给出了详尽且基于上下文的回答。

尽管从图谱可视化中可以看到，从PostgreSQL文档（左上）提取的节点与从三份Ingres文档（右下）提取的节点之间只有微弱的关联，但问答环节仍然返回了扎实的结果。这一点在回答“哪个DBMS的MVCC更好？”时得到了印证，答案重申了这种微弱的关联性，并给出了客观比较：

尽管从图谱可视化中可以看到，从PostgreSQL文档（左上）提取的节点与从三份Ingres文档（右下）提取的节点之间只有微弱的关联，但问答环节仍然返回了扎实的结果。这一点在回答“哪个DBMS的MVCC更好？”时得到了印证，答案重申了这种微弱的关联性，并给出了客观比较：

MVCC比较图谱

问：最终，哪个DBMS的MVCC更好？

问：最终，哪个DBMS的MVCC更好？

答：上下文没有直接比较哪个DBMS的MVCC绝对更好。然而，PostgreSQL的MVCC实现似乎更成熟和优化，提供了如可序列化快照隔离（SSI）等特性，并为读密集型工作负载提供了更好的性能。它还能很好地与其他PostgreSQL特性集成，并通过快照隔离提供一致的数据库视图。
另一方面，Ingres将MVCC作为可选功能引入，这对系统来说是一项重大的架构变化。虽然它提供了无锁并发，但可能需要额外的调优，并且面临诸如开发人员学习曲线增加以及与现有应用程序的潜在兼容性问题等挑战。
最终，“更好”的MVCC取决于应用程序的具体用例、工作负载和需求。PostgreSQL的MVCC可能更适合高级和高并发场景，而Ingres的MVCC可能更适合已经在使用Ingres且需要可选MVCC的环境。

答：上下文没有直接比较哪个DBMS的MVCC绝对更好。然而，PostgreSQL的MVCC实现似乎更成熟和优化，提供了如可序列化快照隔离（SSI）等特性，并为读密集型工作负载提供了更好的性能。它还能很好地与其他PostgreSQL特性集成，并通过快照隔离提供一致的数据库视图。
另一方面，Ingres将MVCC作为可选功能引入，这对系统来说是一项重大的架构变化。虽然它提供了无锁并发，但可能需要额外的调优，并且面临诸如开发人员学习曲线增加以及与现有应用程序的潜在兼容性问题等挑战。
最终，“更好”的MVCC取决于应用程序的具体用例、工作负载和需求。PostgreSQL的MVCC可能更适合高级和高并发场景，而Ingres的MVCC可能更适合已经在使用Ingres且需要可选MVCC的环境。

核心优势与部署选项

测试表明，为其提供更多相关文档，它就能产生更相关的答案。此外，你还可以使用更高级的功能来增强图谱，例如上传模式、提供额外指令、识别并移除未连接到任何其他信息的实体、合并重复实体，甚至使用后处理任务。

测试表明，为其提供更多相关文档，它就能产生更相关的答案。此外，你还可以使用更高级的功能来增强图谱，例如上传模式、提供额外指令、识别并移除未连接到任何其他信息的实体、合并重复实体，甚至使用后处理任务。

为了让LLM知识图谱构建器发挥作用，它需要一个Neo4j图数据库后端并与之建立连接。你可以选择完全托管的AuraDB云服务（提供免费层级）以及构建器的云版本，以便立即开始实验；或者，由于它是一个开源项目，你也可以通过获取Docker镜像和Ollama来完全本地化部署，并连接你选择的LLM。

为了让LLM知识图谱构建器发挥作用，它需要一个Neo4j图数据库后端并与之建立连接。你可以选择完全托管的AuraDB云服务（提供免费层级）以及构建器的云版本，以便立即开始实验；或者，由于它是一个开源项目，你也可以通过获取Docker镜像和Ollama来完全本地化部署，并连接你选择的LLM。

部署方式对比


特性	云版本 (AuraDB + Cloud Builder)	本地版本 (Docker + Ollama)
上手速度	极快，无需配置	中等，需自行部署和配置
基础设施管理	全托管，无需操心	自行维护
成本	提供免费层级，超出后按需付费	主要取决于自有硬件/云资源成本
灵活性	受云服务功能限制	极高，可完全自定义LLM和配置
数据隐私	数据在提供商云端	数据完全本地，隐私性最强

本文进行的测试使用的是云版本，我必须说它非常易于使用，界面简洁，无需任何设置；只需启动一个免费的Neo4j Aura实例并上传文档即可。

本文进行的测试使用的是云版本，我必须说它非常易于使用，界面简洁，无需任何设置；只需启动一个免费的Neo4j Aura实例并上传文档即可。

最终，Neo4j图数据库与基于GraphRAG的构建器的结合，成功发挥了图数据库的全部潜力，以满足AI时代的需求。

最终，Neo4j图数据库与基于GraphRAG的构建器的结合，成功发挥了图数据库的全部潜力，以满足AI时代的需求。

总结

LLM知识图谱构建器通过将非结构化数据转化为富含关系的知识图谱，有效实现了GraphRAG的承诺。它超越了简单向量检索的局限，通过捕捉和利用实体间的语义关系，在复杂问答任务中提供了更准确、更具上下文感知能力的答案。无论是对于技术研究、文档分析还是知识发现，它都提供了一个强大的新工具。

LLM知识图谱构建器通过将非结构化数据转化为富含关系的知识图谱，有效实现了GraphRAG的承诺。它超越了简单向量检索的局限，通过捕捉和利用实体间的语义关系，在复杂问答任务中提供了更准确、更具上下文感知能力的答案。无论是对于技术研究、文档分析还是知识发现，它都提供了一个强大的新工具。

常见问题（FAQ）

LLM知识图谱构建器相比传统RAG有哪些核心优势？

LLM知识图谱构建器通过GraphRAG的关系感知检索机制，能捕捉向量间的上下文关系，相比传统RAG提供更准确的答案。它可将PDF、网页等非结构化数据转化为Neo4j知识图谱。

GraphRAG如何提升检索准确性？

GraphRAG不仅基于向量技术，还能利用图数据结构中的丰富上下文信息，通过节点间的连接关系进行检索。这使得它在回答复杂查询时能提供更精准、基于上下文的答案。

使用LLM知识图谱构建器需要什么技术准备？

用户只需上传非结构化文档（如PDF、文本），工具会自动解析并构建知识图谱。支持免费云实例部署，无需复杂配置即可开始使用，适合快速验证概念和实际应用测试。