AI知识检索系统如何映射人类记忆功能？2026年最新技术对比分析

AI 知识检索、记忆与 RAG 系统目录（最后更新于 2025-04-13）

Catalog of AI Knowledge Retrieval, Memory & RAG Systems (Last updated 2025-04-13)

本文主旨

这是一份关于存储、检索和推理的 AI 知识系统的参考目录和映射图。其核心论点是：每一个 AI 知识系统都在解决一个生物记忆早已解决的问题，只是采用了不同的权衡策略。

A reference catalog mapping of AI knowledge systems that store, retrieve, and reason. The thesis: every AI knowledge system is solving a problem that biological memory already solved, just with different tradeoffs.

人类通过联想（向量相似性）、叙事（情景记忆）、关系（知识图谱）、巩固（睡眠/做梦）和遗忘（干扰、衰退）来记忆。AI 系统已经惊人地汇聚到了平行的架构上：用于联想回忆的向量数据库、用于情景记忆的对话日志、用于关系推理的图 RAG、用于记忆修剪的离线巩固，以及用于管理遗忘的 TTL/自动过期机制。

Humans remember through association (vector similarity), narrative (episodic memory), relationships (knowledge graphs), consolidation (sleep/dreaming), and forgetting (interference, decay). AI systems have converged on strikingly parallel architectures: vector databases for associative recall, conversation logs for episodes, graph RAG for relational reasoning, offline consolidation for memory pruning, and TTL/auto-expiry for managed forgetting.

本目录的存在，是因为当前生态由 100 多个项目构成，它们名称重叠、边界模糊、代码库快速变化。它旨在回答：每个项目实际做什么、占据技术栈的哪一层、需要什么硬件，以及它如何映射到它所替代的认知功能。

This catalog exists because the landscape is fragmented across 100+ projects with overlapping names, unclear boundaries, and fast-changing codebases. It answers: what does each project actually do, what layer of the stack does it occupy, what hardware does it need, and how does it map to the cognitive function it's replacing.

目标读者

任何正在构建或评估 AI 知识基础设施的人——特别是那些硬件兼容性（Metal vs CUDA vs CPU）决定可行性的本地优先（local-first）设置。

Anyone building or evaluating AI knowledge infrastructure — particularly local-first setups where hardware compatibility (Metal vs CUDA vs CPU) determines what's even possible.

使用指南

各章节按从底层基础设施（向量数据库、嵌入服务器）到高层认知（记忆管理、做梦/巩固）的顺序排列。如果你正在构建一个技术栈，请自底向上阅读。如果你正在评估特定项目，请找到其所属类别并在该部分内进行比较。底部的认知映射表将所有内容连接回每个类别所替代的人类记忆机制。

Sections are ordered from low-level infrastructure (vector DBs, embedding servers) to high-level cognition (memory management, dreaming/consolidation). If you're building a stack, read bottom-up. If you're evaluating a specific project, find its category and compare within-section. The cognition mapping table at the bottom connects everything back to the human memory mechanisms each category replaces.

本文档已与以下优秀资源进行交叉参考：Awesome-Agent-Memory、Awesome-Memory-for-Agents 和 Awesome-GraphRAG。GPU/平台数据与 GPU Compute Platforms Breakdown 保持一致。

Cross-referenced against Awesome-Agent-Memory, Awesome-Memory-for-Agents, and Awesome-GraphRAG. GPU/platform data aligned to GPU Compute Platforms Breakdown.

GPU/加速器图例

平台术语遵循六层栈模型（参见配套文档）：

Platform terminology follows the six-layer stack model (see companion doc):


标签	含义	栈层
`CPU`	仅 CPU，无 GPU 加速	—
`CUDA`	通过 CUDA API + cuBLAS/cuDNN 内核使用 NVIDIA GPU	L1-L2
`Metal`	通过 Metal API + 原生着色器使用 Apple GPU (llama.cpp, Ollama)	L1
`MPS`	通过 Metal Performance Shaders 使用 Apple GPU (PyTorch `device="mps"`)	L2 via L4
`MLX`	通过 Apple 的 ML 框架使用 Apple GPU (统一内存，惰性求值)	L4
`ROCm`	通过 ROCm/HIP 使用 AMD GPU	L1-L2
`Vulkan`	通过 Vulkan 计算使用跨平台 GPU	L1
`SYCL`	通过 oneAPI/SYCL 使用 Intel GPU	L1
`Any`	平台无关 (SaaS API, Docker)	—
`⚠`	未经验证 — 请检查仓库	—

Tag Meaning Stack Layer

CPU CPU-only, no GPU acceleration —

CUDA NVIDIA GPU via CUDA API + cuBLAS/cuDNN kernels L1-L2

Metal Apple GPU via Metal API + native shaders (llama.cpp, Ollama) L1

MPS Apple GPU via Metal Performance Shaders (PyTorch device="mps") L2 via L4

MLX Apple GPU via Apple's ML framework (unified memory, lazy eval) L4

ROCm AMD GPU via ROCm/HIP L1-L2

Vulkan Cross-platform GPU via Vulkan compute L1

SYCL Intel GPU via oneAPI/SYCL L1

Any Platform-agnostic (SaaS API, Docker) —

⚠ Unverified — check repo —


Tag	Meaning	Stack Layer
`CPU`	CPU-only, no GPU acceleration	—
`CUDA`	NVIDIA GPU via CUDA API + cuBLAS/cuDNN kernels	L1-L2
`Metal`	Apple GPU via Metal API + native shaders (llama.cpp, Ollama)	L1
`MPS`	Apple GPU via Metal Performance Shaders (PyTorch `device="mps"`)	L2 via L4
`MLX`	Apple GPU via Apple's ML framework (unified memory, lazy eval)	L4
`ROCm`	AMD GPU via ROCm/HIP	L1-L2
`Vulkan`	Cross-platform GPU via Vulkan compute	L1
`SYCL`	Intel GPU via oneAPI/SYCL	L1
`Any`	Platform-agnostic (SaaS API, Docker)	—
`⚠`	Unverified — check repo	—

⭐ Stars: 截至 2026 年 4 月的 GitHub Stars 近似值。四舍五入到千位。数据来源于仓库页面、搜索结果和 Awesome 列表。数量每日变化——请将其视为数量级指标，而非精确数字。

⭐ Stars: Approximate GitHub stars as of April 2026. Rounded to nearest K. Sourced from repo pages, search results, and Awesome lists. Counts change daily — treat as order-of-magnitude indicators, not exact figures.

关键区别：Metal = 原生 GPU 着色器（快速，无需 PyTorch） vs MPS = 通过 Metal Performance Shaders 路由的 PyTorch（方便，有开销）。你的 Ollama/llama.cpp 技术栈使用的是 Metal，而不是 MPS。

Key distinction: Metal = native GPU shaders (fast, no PyTorch) vs MPS = PyTorch routing through Metal Performance Shaders (convenient, overhead). Your Ollama/llama.cpp stack uses Metal, not MPS.

其他列说明

Updated: 截至 2026 年 4 月的最后发布版本。~ 表示近似。
Deploy: Self = 自托管 | Cloud = 托管服务 | Both = 两者皆可

Updated: Last release as of April 2026. ~ = approximate.

Deploy: Self = self-hosted | Cloud = managed service | Both = either

1. 向量数据库与相似性搜索

目的：存储和通过相似性搜索高维向量（嵌入）。这是基础层——其他所有组件都从这里检索数据。

Purpose: Store and search high-dimensional vectors (embeddings) by similarity. The foundation layer — everything else retrieves from here.


项目	★	GitHub	语言	加速器	环境	更新	许可证
Milvus	43K	milvus-io/milvus	Go/C++	CPU, CUDA	Docker/K8s	~2026-Q1	Apache 2.0
FAISS	33K	facebookresearch/faiss	C++/Py	CPU, CUDA	Py 3.8+, cmake	~2026-Q1	MIT
Qdrant	22K	qdrant/qdrant	Rust	CPU	Docker/binary, 1GB+ RAM	~2026-Q1	Apache 2.0
Chroma	18K	chroma-core/chroma	Rust/Py	CPU	Py 3.9+ or Docker	~2026-Q1	Apache 2.0
Weaviate	15K	weaviate/weaviate	Go	CPU, CUDA (modules)	Docker	~2026-Q1	BSD-3
pgvector	13K	pgvector/pgvector	C	CPU	PostgreSQL 12+	~2026-Q1	PostgreSQL
LanceDB	5K	lancedb/lancedb	Rust/Py	CPU	Py 3.9+, pip	~2026-Q1	Apache 2.0
Vespa	4K	vespa-engine/vespa	Java/C++	CPU	Docker, 8GB+ RAM	~2026-Q1	Apache 2.0
Pinecone	—	pinecone.io	SaaS	Any	API key only	Active	Proprietary
Turbopuffer	—	turbopuffer.com	SaaS	Any	API key, $64/mo min	Active	Proprietary

常见问题（FAQ）
这份AI知识检索系统目录主要解决什么问题？
本目录旨在梳理当前100多个边界模糊、快速变化的AI知识检索项目，明确每个项目的实际功能、技术栈层级、硬件需求，并将其映射到所对应的人类认知功能。
目录中的GPU/加速器标签（如CUDA、Metal）具体代表什么？
这些标签遵循六层栈模型，表示不同的硬件加速平台。例如CUDA指通过NVIDIA GPU加速，Metal指通过Apple原生API使用苹果GPU，CPU则表示仅使用CPU计算。
如何根据我的需求使用这份技术参考目录？
若构建技术栈，建议自底向上阅读（从向量数据库等基础设施到高层认知功能）。若评估特定项目，可在对应类别（如向量数据库、RAG框架）内进行比较，并参考底部的认知映射表。
标签
生成式引擎优化结构化数据 AI大模型人工智能 SEO
← 返回文章列表
分享到：微博
下一篇
如何为AI系统设置检索边界以防止数据泄露？（权威控制层详解）
版权与免责声明：本文仅用于信息分享与交流，不构成任何形式的法律、投资、医疗或其他专业建议，也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材，其权利归各自合法权利人所有。本站内容可能基于公开资料整理，亦可能使用 AI 辅助生成或润色；我们尽力确保准确与合规，但不保证完整性、时效性与适用性，请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误，请相关权利人/当事人联系本站，我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。
GEO（Generative Engine Optimization）
专注于GEO（生成式引擎优化）技术的深度探索。分享前沿的AI搜索优化策略、实战案例与技术原理，助您在AI时代抢占流量先机。
探索发现
→ 首页
→ 最新文章
保持联系
📧
Email
hyl162182@hotmail.com
📍
Location
Guangdong, China
© 2026 Geoz.com.cn. All rights reserved.
赣ICP备2026000942号
隐私政策服务条款

Project ★ GitHub Lang Accel Env Updated License

Milvus 43K milvus-io/milvus Go/C++ CPU, CUDA Docker/K8s ~2026-Q1 Apache 2.0

FAISS 33K facebookresearch/faiss C++/Py CPU, CUDA Py 3.8+, cmake ~2026-Q1 MIT

Qdrant 22K qdrant/qdrant Rust CPU Docker/binary, 1GB+ RAM ~2026-Q1 Apache 2.0

Chroma 18K chroma-core/chroma Rust/Py CPU Py 3.9+ or Docker ~2026-Q1 Apache 2.0

Weaviate 15K weaviate/weaviate

AI Summary (BLUF)

本文主旨

目标读者

使用指南

GPU/加速器图例

其他列说明

1. 向量数据库与相似性搜索

常见问题（FAQ）

这份AI知识检索系统目录主要解决什么问题？

目录中的GPU/加速器标签（如CUDA、Metal）具体代表什么？

如何根据我的需求使用这份技术参考目录？