GEO

PageIndex:无需向量数据库的智能文档分析框架,实现类人检索

2026/1/27
PageIndex:无需向量数据库的智能文档分析框架,实现类人检索

AIAI Summary (BLUF)

PageIndex是一种无向量、基于推理的RAG框架,通过分层树索引与大语言模型推理,实现对长篇幅专业文档的类人检索,无需依赖向量数据库与文档分块。

📢 最新动态

🔥 产品发布

PageIndex Chat:首个专为专业长文档设计、具备类人文档分析能力的智能体平台。同时支持通过 MCP 或 API 进行集成(测试版)。

📝 技术文章

PageIndex 框架:介绍 PageIndex 框架——一种基于智能体的上下文树状索引,使大语言模型能够在无需向量数据库或分块的情况下,对长文档执行基于推理的、类人化的检索。

🧪 实践教程

  • 无向量 RAG:一个使用 PageIndex 实现基于推理的 RAG 的极简实践示例。无需向量,无需分块,实现类人检索。
  • 基于视觉的无向量 RAG:无需 OCR,仅通过视觉的 RAG 流程,利用 PageIndex 原生支持推理的检索工作流,直接处理 PDF 页面图像。

📑 PageIndex 简介

在处理专业长文档时,您是否对向量数据库检索的准确性感到沮丧?传统的基于向量的 RAG 依赖于语义相似性而非真正的相关性。但相似性 ≠ 相关性——我们在检索中真正需要的是相关性,而这需要推理能力。当处理需要领域专业知识和多步推理的专业文档时,相似性搜索往往力不从心。

受 AlphaGo 启发,我们提出了 PageIndex——一个无需向量、基于推理的 RAG 系统。它从长文档中构建分层树状索引,并利用大语言模型在该索引上进行推理,从而实现具备上下文感知能力的智能检索。

它模拟了人类专家如何通过树搜索在复杂文档中导航和提取知识,使大语言模型能够通过思考和推理找到最相关的文档部分。PageIndex 的检索过程分为两步:

  1. 为文档生成“目录”式的树状结构索引。
  2. 通过树搜索执行基于推理的检索。

🎯 核心特性

与传统基于向量的 RAG 相比,PageIndex 具备以下特性:

  • 无需向量数据库:利用文档结构和 LLM 推理进行检索,而非向量相似性搜索。
  • 无需分块:文档按自然章节组织,而非人工分块。
  • 类人化检索:模拟人类专家在复杂文档中导航和提取知识的方式。
  • 更好的可解释性与可追溯性:检索基于推理——可追溯、可解释,并提供具体的页面和章节引用。告别不透明、近似的向量搜索(“氛围检索”)。

PageIndex 驱动的基于推理的 RAG 系统,在 FinanceBench 基准测试中取得了 98.7% 的顶尖准确率,在专业文档分析任务上展现出优于传统向量 RAG 解决方案的性能(详见我们的博客文章)。

🛠️ 部署选项

  • 自托管 — 使用此开源仓库在本地运行。
  • 云服务 — 通过我们的聊天平台即时体验,或通过 MCP 或 API 集成。
  • 企业版 — 私有化或本地部署。请联系我们或预约演示以获取更多详情。

🧪 快速上手

  • 尝试 无向量 RAG 笔记本 — 一个使用 PageIndex 实现基于推理的 RAG 的极简实践示例。
  • 体验 基于视觉的无向量 RAG — 无需 OCR;一个极简的、原生支持推理的 RAG 流程,可直接处理页面图像。

🌲 PageIndex 树状结构

PageIndex 能够将冗长的 PDF 文档转换为语义树状结构,类似于“目录”,但针对大语言模型的使用进行了优化。它非常适用于:财务报告、监管文件、学术教科书、法律或技术手册,以及任何超出 LLM 上下文长度限制的文档。

您可以使用此开源仓库生成 PageIndex 树状结构,或使用我们的 API。

⚙️ 使用指南

您可以按照以下步骤从 PDF 文档生成 PageIndex 树。

1. 安装依赖

pip3 install --upgrade -r requirements.txt

2. 设置您的 OpenAI API 密钥
在根目录创建 .env 文件并添加您的 API 密钥:

CHATGPT_API_KEY=your_openai_key_here

3. 在您的 PDF 上运行 PageIndex

python3 run_pageindex.py --pdf_path /path/to/your/document.pdf

可选参数
您可以使用额外的可选参数自定义处理过程:

--model                 OpenAI model to use (default: gpt-4o-2024-11-20)
--toc-check-pages       Pages to check for table of contents (default: 20)
--max-pages-per-node    Max pages per node (default: 10)
--max-tokens-per-node   Max tokens per node (default: 20000)
--if-add-node-id        Add node ID (yes/no, default: yes)
--if-add-node-summary   Add node summary (yes/no, default: yes)
--if-add-doc-description Add doc description (yes/no, default: yes)

Markdown 支持
我们也为 PageIndex 提供 Markdown 支持。您可以使用 -md_path 参数为 Markdown 文件生成树状结构。

python3 run_pageindex.py --md_path /path/to/your/document.md

注意:在此功能中,我们使用“#”来确定节点标题及其层级。例如,“##”是 2 级,“###”是 3 级,依此类推。请确保您的 Markdown 文件格式正确。如果您的 Markdown 文件是从 PDF 或 HTML 转换而来,我们不建议使用此功能,因为大多数现有转换工具无法保留原始层次结构。相反,请使用我们专为保留原始层次结构而设计的 PageIndex OCR 将 PDF 转换为 Markdown 文件,然后再使用此功能。

📈 案例研究:PageIndex 领跑金融问答基准测试

Mafin 2.5 是一个用于金融文档分析的基于推理的 RAG 系统,由 PageIndex 驱动。它在 FinanceBench 基准测试中取得了 98.7% 的顶尖准确率,显著优于传统的基于向量的 RAG 系统。

PageIndex 的分层索引和推理驱动的检索机制,能够从复杂的财务报告(如 SEC 文件和收益披露)中精确导航和提取相关上下文。

请查阅完整的基准测试结果和我们的博客文章,以获取详细的比较和性能指标。

🧭 资源

  • 🧪 实践教程:可运行的动手示例和高级用例。
  • 📖 教程:实用指南和策略,包括文档搜索和树搜索。
  • 📝 博客:技术文章、研究见解和产品更新。
  • 🔌 MCP 设置与 API 文档:集成详情和配置选项。

⭐ 支持我们

如果您喜欢我们的项目,请为我们点亮一颗星 🌟。谢谢!


© 2025 Vectify AI

阿凯广州
本文由 阿凯 审核,最后更新于 2026年7月2日
联系编辑 →
← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。