VAC记忆系统在LoCoMo 2025基准测试中准确率如何达到80.1%?
2026/4/10
AIAI Summary (BLUF)
VAC记忆系统是一款面向大语言模型智能体的开源对话记忆框架,采用MCA门控、FAISS语义搜索、BM25词法搜索与交叉编码器重排序相结合的混合检索架构,在LoCoMo 2025基准测试中取得80.1%准确率。

在4.5个月内,从手机信号塔攀爬员到SOTA级AI记忆系统
全球最准确的开源大语言模型对话记忆系统
📖 不可能的故事
没有计算机科学学位,没有编程背景。只是一个心怀梦想的勤杂工,以及终端里的Claude。
- 起点: 零编程知识,在TaskRabbit上安装橱柜
- 武器: 分期付款购买的RTX 4090 + 纯粹的痴迷
- 成果: 在LoCoMo基准测试上达到80%的SOTA水平
- 时间: 4.5个月,每天18小时
这个代码库不仅仅是代码。它证明了 “不可能”只是一个起点。
🏆 数据不会说谎
官方LoCoMo 2025基准测试结果
使用GPT-4o-mini作为慷慨评判员,进行了100次测试运行
LoCoMo基准测试排行榜 - GPT-4o-mini (2025)
| 排名 | 系统 | 准确率 | 备注 |
|---|---|---|---|
| 🥇 | MemMachine | 84.87% | 单跳:93.3%,多跳:80.5%,时序:72.6% |
| 🥈 | VAC Memory System | 80.1% | 100次验证运行,MCA + FAISS + BM25 + Cross-encoder |
| 🥉 | Letta (MemGPT) | 74.0% | 基于文件的语义搜索 |
| 4️⃣ | Mem0 (图变体) | 68.5% | 相比OpenAI基线提升+26% |
| 5️⃣ | Memobase | 75.78% | - |
| 6️⃣ | Zep | 75.14% | - |
| 7️⃣ | Mem0 (默认) | 66.88% | 标准变体 |
按对话细分 (10个对话 × 10个种子)
| 对话 | 问题数 | 平均准确率 | 峰值 | 洞察 |
|---|---|---|---|---|
| 0 | 152 | 87.5% | 87.5% | 🔥 最佳表现者 |
| 7 | 191 | 86.4% | 87.2% | 🔥 持续卓越 |
| 2 | 152 | 85.5% | 86.2% | 🔥 坚如磐石 |
| 1 | 81 | 80.2% | 81.5% | ✅ 高于基线 |
| 9 | 158 | 77.8% | 79.1% | ✅ 强大的回忆能力 |
| 3-8 | 736 | 76.7% | 78.4% | ✅ 可靠范围 |
总计:评估了1,540个问题 → 平均准确率80.1%
⚙️ 工作原理
flowchart LR
A[🗣 Query] --> B[🧠 Preprocess]
B --> C{🎯 MCA Gate}
B --> D[🔍 FAISS]
B --> E[📚 BM25]
C --> F[🔀 Union]
D --> F
E --> F
F --> G[⚖️ Rerank]
G --> H[💬 GPT-4o-mini]
H --> I[✅ Answer]
style A fill:#e1f5fe
style C fill:#fff3e0
style G fill:#f3e5f5
style I fill:#e8f5e9
🎓 两个版本:LITE(开源) vs FULL(编译版)
LITE版本 - 学习架构
# 开源Python实现 - 理解VAC如何工作
python mca_lite.py # ~40行:关键词匹配
python pipeline_lite.py # ~250行:4步流水线
LITE版本展示了核心概念。
FULL版本 - 在LoCoMo基准测试上使用生产代码
# 预编译的优化二进制文件 (Core/*.so)
./run_test.sh # Linux/Mac
run_test.bat # Windows
FULL版本通过所有优化实现了80.1%的准确率:
- 高级MCA(命名实体识别 + 日期解析)
- BM25词汇搜索
- 交叉编码器重排序
- 查询扩展
🎯 秘密配方
- MCA优先门控 🛡️ - 专有的实体/日期保护算法
- 混合检索 🔄 - FAISS (BGE-large) + BM25的完美结合
- 交叉编码器 ⚖️ - BAAI/bge-reranker-v2-m3,实现外科手术般的精确度
- 确定性 🎲 - 温度设为0,每次结果可复现
📊 性能指标
| 指标 | 数值 | 说明 |
|---|---|---|
| ⚡ 速度 | 2.5秒/问题 | 每个问题的处理时间 |
| 💰 成本 | <$0.10 / 百万令牌 | 每百万令牌的处理成本 |
| 🎯 召回率 | 94-100% | 真实答案覆盖率 |
| 🔒 隔离性 | 100% | 对话完全分离 |
| 🧪 可复现性 | 100% | 每个结果均可验证 |
🚀 快速开始 (30秒)
先决条件
# 1. 安装 Python 3.10+
# 2. 支持CUDA的GPU (8GB+ 显存)
# 3. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5:14b
运行系统
🐧 Linux
git clone https://github.com/vac-architector/VAC-Memory-System.git
cd VAC-Memory-System
export OPENAI_API_KEY="sk-..."
./run_test.sh
🪟 Windows
git clone https://github.com/vac-architector/VAC-Memory-System.git
cd VAC-Memory-System
set OPENAI_API_KEY=sk-...
run_test.bat
验证结果
# 运行官方评判器
python3 Core/gpt_official_generous_judge_from_mem0.py results/vac_v1_*.json
# 检查准确率
cat results/*_generous_judged.json | grep "accuracy"
📁 仓库结构
VAC-Memory-System/
├── 🧠 Core/ # 编译后的流水线 (.so) + 评判器
## 常见问题(FAQ)
### VAC记忆系统在LoCoMo 2025基准测试中的准确率是多少?
VAC记忆系统在LoCoMo 2025基准测试中实现了80.1%的准确率,在排行榜中排名第二,仅次于MemMachine的84.87%。
### VAC记忆系统的混合检索架构包含哪些技术?
系统采用混合检索架构,结合了MCA门控、FAISS语义搜索、BM25词法搜索和交叉编码器重排序技术,以实现高精度记忆检索。
### VAC记忆系统有哪两个版本?有什么区别?
提供LITE(开源学习架构)和FULL(编译生产版)两个版本。FULL版本使用生产代码在LoCoMo基准测试中运行。
Roger深圳
本文由 Roger 审核,最后更新于 2026年7月2日
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



