Zep和MemGPT哪个更适合企业AI智能体记忆层服务？（附2026年基准测试对比）：原理解析、实操步骤、常见问题与优化

摘要

我们推出 Zep，一种面向AI智能体的新型记忆层服务，其在深度记忆检索基准测试中超越了当前最先进的系统 MemGPT。此外，Zep 在比 DMR 更全面、更具挑战性的评估中表现出色，这些评估更好地反映了真实世界的企业应用场景。虽然现有面向大语言模型智能体的检索增强生成框架仅限于静态文档检索，但企业应用需要从包括持续对话和业务数据在内的多种来源进行动态知识整合。Zep 通过其核心组件 Graphiti——一个具有时间感知能力的知识图谱引擎——解决了这一根本性限制。Graphiti 能够动态合成非结构化的对话数据和结构化的业务数据，同时保持历史关系。在 MemGPT 团队确立为主要评估指标的 DMR 基准测试中，Zep 展现了更优的性能。除了 DMR，Zep 的能力在更具挑战性的 LongMemEval 基准测试中得到了进一步验证，该测试通过复杂的时间推理任务更好地反映了企业用例。在此评估中，Zep 取得了显著成果，与基线实现相比，准确率提升高达 18.5%，同时响应延迟降低了 90%。这些结果在企业关键任务中尤为突出，例如跨会话信息合成和长期上下文维护，证明了 Zep 在实际应用部署中的有效性。

核心概念：从静态检索到动态记忆

当前，大多数基于大语言模型的智能体依赖于检索增强生成框架来获取外部知识。然而，传统的 RAG 方法主要针对静态文档库进行检索，其知识是固定的、离散的。这种模式在面对动态、连续的企业环境时存在显著不足。

企业应用场景中的知识是流动且相互关联的，它产生于：

持续的对话流：用户与智能体在多轮、跨会话的交互中产生的上下文。
实时业务数据：来自 CRM、ERP 等系统的结构化数据，其状态随时间变化。
历史关系与事件序列：决策和状态变化背后的因果与时间线。

Zep 的设计目标正是为了解决这种动态知识整合的挑战。其核心创新在于将智能体的“记忆”从一个被动的检索库，提升为一个主动的、能够理解时间上下文和实体关系的记忆层服务。

技术架构与核心组件：Graphiti

Zep 的卓越性能源于其核心引擎 Graphiti。这是一个专为时序感知而设计的动态知识图谱引擎。

Graphiti 的工作原理

Graphiti 并非简单存储文本片段，而是从多源数据流中实时提取实体、事件及其关系，并为其打上精确的时间戳，构建一个不断演化的知识图谱。

多源数据摄取与融合：
- 非结构化对话：解析对话记录，识别提及的人物、项目、产品等实体以及用户意图和行动。
- 结构化业务数据：连接数据库，将订单状态、用户资料、交易记录等作为实体和属性纳入图谱。
- 时序锚定：为所有提取的信息元素关联其发生或更新时间。
动态图谱构建与推理：
- 实体和关系随着新数据的到来而被创建、更新或增强。
- 系统能够推断出隐含的关系，例如，识别出不同会话中提到的“客户A的需求”与业务系统中的“项目X的优先级变更”之间的关联。
基于上下文的记忆检索：
- 当智能体需要记忆时，Graphiti 接收当前查询和上下文。
- 它不仅在图谱中查找关键词匹配，更能执行基于时间窗口、实体关系链和事件因果的图遍历查询，返回最相关、上下文连贯的记忆片段。

性能评估：基准测试结果分析

Zep 在多个基准测试中接受了严格评估，其表现不仅超越了现有方案，更在贴近企业真实需求的复杂任务中展现出巨大优势。

深度记忆检索基准测试

DMR 基准由 MemGPT 团队提出，专注于评估智能体在长文档中回忆特定事实和细节的能力。在此项测试中，Zep 取得了领先的成绩。


评估指标	MemGPT (基线)	Zep	关键结论
DMR 准确率	93.4%	94.8%	Zep 在 MemGPT 设定的核心指标上实现超越，证明了其基础检索能力的优越性。
检索相关性	高	极高	基于知识图谱的检索能更好地理解查询意图，返回更精确的上下文。

LongMemEval 综合基准测试

为了更全面地评估企业级能力，研究引入了更复杂的 LongMemEval 基准。该测试包含跨会话推理、时序问答和长期依赖理解等任务，对系统的动态记忆与合成能力要求极高。


任务类型	基线模型平均准确率	Zep 准确率	性能提升	响应延迟降低
跨会话信息合成	71.2%	84.5%	+13.3%	~90%
复杂时序推理	65.8%	84.3%	+18.5%
长期上下文维护	78.9%	92.1%	+13.2%

结果分析：

准确率大幅提升：在最具挑战性的“复杂时序推理”任务中，Zep 取得了高达 18.5% 的准确率提升。这直接证明了 Graphiti 引擎在处理时间逻辑和事件序列方面的强大能力。
延迟显著降低：尽管进行了更复杂的图计算，Zep 通过高效的索引和查询优化，实现了比基线方法快 90% 的响应速度。这对于需要实时交互的企业应用至关重要。
企业场景优势凸显：在“跨会话信息合成”和“长期上下文维护”任务上的优异表现，表明 Zep 能够有效支持需要连贯、个性化服务的真实业务场景，如客户支持、项目管理和决策辅助。

总结与展望

Zep 代表了一种构建AI智能体记忆系统的范式转变——从静态文档检索转向动态、时序感知的知识图谱记忆。通过其核心组件 Graphiti，Zep 成功地将流动的对话和业务数据整合为可推理的长期记忆，在保持高准确性的同时实现了极低的延迟。

这项研究为下一代企业级AI应用奠定了基础。未来，记忆层服务可能会进一步与工作流引擎、决策系统深度融合，成为企业智能数字助理的核心基础设施，真正实现具备持续学习、情境理解和历史追溯能力的AI伙伴。

论文信息：

标题: Zep: A Memory Layer for AI Agents
作者: Preston Rasmussen et al.
链接: arXiv:2501.13956
领域: 计算与语言，人工智能，信息检索

常见问题（FAQ）

Zep的记忆层服务相比传统RAG框架有什么核心优势？

Zep通过Graphiti知识图谱引擎实现了动态记忆整合，能处理持续对话和实时业务数据，而传统RAG仅限于静态文档检索，无法适应企业动态环境。

Graphiti知识图谱引擎如何解决时序推理问题？

Graphiti从多源数据中提取实体、事件及其关系并打上时间戳，构建演化的知识图谱，保持历史关系，专门为时间感知设计，支持复杂时序推理任务。

Zep在哪些基准测试中证明了其性能优势？

在Deep Memory Retrieval基准测试中超越MemGPT，在更全面的LongMemEval测试中准确率提升达18.5%，响应延迟降低90%，特别擅长跨会话信息合成任务。

Zep和MemGPT哪个更适合企业AI智能体记忆层服务？（附2026年基准测试对比）

AIAI Summary (BLUF)

摘要

核心概念：从静态检索到动态记忆

技术架构与核心组件：Graphiti

Graphiti 的工作原理

性能评估：基准测试结果分析

深度记忆检索基准测试

LongMemEval 综合基准测试

总结与展望

常见问题（FAQ）

Zep的记忆层服务相比传统RAG框架有什么核心优势？

Graphiti知识图谱引擎如何解决时序推理问题？

Zep在哪些基准测试中证明了其性能优势？

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

摘要

核心概念：从静态检索到动态记忆

技术架构与核心组件：Graphiti

Graphiti 的工作原理

性能评估：基准测试结果分析

深度记忆检索基准测试

LongMemEval 综合基准测试

总结与展望

常见问题（FAQ）

Zep的记忆层服务相比传统RAG框架有什么核心优势？

Graphiti知识图谱引擎如何解决时序推理问题？

Zep在哪些基准测试中证明了其性能优势？

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择