如何实现类人文档检索？PageIndex智能分析框架 | Geoz.com.cn：原理解析、实操步骤、常见问题与优化建议

📢 最新动态

🔥 产品发布

PageIndex Chat：首个专为专业长文档设计、具备类人文档分析能力的智能体平台。同时支持通过 MCP 或 API 进行集成（测试版）。

📝 技术文章

PageIndex 框架：介绍 PageIndex 框架——一种基于智能体的上下文树状索引，使大语言模型能够在无需向量数据库或分块的情况下，对长文档执行基于推理的、类人化的检索。

🧪 实践教程

无向量 RAG：一个使用 PageIndex 实现基于推理的 RAG 的极简实践示例。无需向量，无需分块，实现类人检索。
基于视觉的无向量 RAG：无需 OCR，仅通过视觉的 RAG 流程，利用 PageIndex 原生支持推理的检索工作流，直接处理 PDF 页面图像。

📑 PageIndex 简介

在处理专业长文档时，您是否对向量数据库检索的准确性感到沮丧？传统的基于向量的 RAG 依赖于语义相似性而非真正的相关性。但相似性 ≠ 相关性——我们在检索中真正需要的是相关性，而这需要推理能力。当处理需要领域专业知识和多步推理的专业文档时，相似性搜索往往力不从心。

受 AlphaGo 启发，我们提出了 PageIndex——一个无需向量、基于推理的 RAG 系统。它从长文档中构建分层树状索引，并利用大语言模型在该索引上进行推理，从而实现具备上下文感知能力的智能检索。

它模拟了人类专家如何通过树搜索在复杂文档中导航和提取知识，使大语言模型能够通过思考和推理找到最相关的文档部分。PageIndex 的检索过程分为两步：

为文档生成“目录”式的树状结构索引。
通过树搜索执行基于推理的检索。

🎯 核心特性

与传统基于向量的 RAG 相比，PageIndex 具备以下特性：

无需向量数据库：利用文档结构和 LLM 推理进行检索，而非向量相似性搜索。
无需分块：文档按自然章节组织，而非人工分块。
类人化检索：模拟人类专家在复杂文档中导航和提取知识的方式。
更好的可解释性与可追溯性：检索基于推理——可追溯、可解释，并提供具体的页面和章节引用。告别不透明、近似的向量搜索（“氛围检索”）。

PageIndex 驱动的基于推理的 RAG 系统，在 FinanceBench 基准测试中取得了 98.7% 的顶尖准确率，在专业文档分析任务上展现出优于传统向量 RAG 解决方案的性能（详见我们的博客文章）。

🛠️ 部署选项

自托管 — 使用此开源仓库在本地运行。
云服务 — 通过我们的聊天平台即时体验，或通过 MCP 或 API 集成。
企业版 — 私有化或本地部署。请联系我们或预约演示以获取更多详情。

🧪 快速上手

尝试 无向量 RAG 笔记本 — 一个使用 PageIndex 实现基于推理的 RAG 的极简实践示例。
体验 基于视觉的无向量 RAG — 无需 OCR；一个极简的、原生支持推理的 RAG 流程，可直接处理页面图像。

🌲 PageIndex 树状结构

PageIndex 能够将冗长的 PDF 文档转换为语义树状结构，类似于“目录”，但针对大语言模型的使用进行了优化。它非常适用于：财务报告、监管文件、学术教科书、法律或技术手册，以及任何超出 LLM 上下文长度限制的文档。

您可以使用此开源仓库生成 PageIndex 树状结构，或使用我们的 API。

⚙️ 使用指南

您可以按照以下步骤从 PDF 文档生成 PageIndex 树。

1. 安装依赖

pip3 install --upgrade -r requirements.txt

2. 设置您的 OpenAI API 密钥
在根目录创建 .env 文件并添加您的 API 密钥：

CHATGPT_API_KEY=your_openai_key_here

3. 在您的 PDF 上运行 PageIndex

python3 run_pageindex.py --pdf_path /path/to/your/document.pdf

可选参数
您可以使用额外的可选参数自定义处理过程：

--model                 OpenAI model to use (default: gpt-4o-2024-11-20)
--toc-check-pages       Pages to check for table of contents (default: 20)
--max-pages-per-node    Max pages per node (default: 10)
--max-tokens-per-node   Max tokens per node (default: 20000)
--if-add-node-id        Add node ID (yes/no, default: yes)
--if-add-node-summary   Add node summary (yes/no, default: yes)
--if-add-doc-description Add doc description (yes/no, default: yes)

Markdown 支持
我们也为 PageIndex 提供 Markdown 支持。您可以使用 -md_path 参数为 Markdown 文件生成树状结构。

python3 run_pageindex.py --md_path /path/to/your/document.md

注意：在此功能中，我们使用“#”来确定节点标题及其层级。例如，“##”是 2 级，“###”是 3 级，依此类推。请确保您的 Markdown 文件格式正确。如果您的 Markdown 文件是从 PDF 或 HTML 转换而来，我们不建议使用此功能，因为大多数现有转换工具无法保留原始层次结构。相反，请使用我们专为保留原始层次结构而设计的 PageIndex OCR 将 PDF 转换为 Markdown 文件，然后再使用此功能。

📈 案例研究：PageIndex 领跑金融问答基准测试

Mafin 2.5 是一个用于金融文档分析的基于推理的 RAG 系统，由 PageIndex 驱动。它在 FinanceBench 基准测试中取得了 98.7% 的顶尖准确率，显著优于传统的基于向量的 RAG 系统。

PageIndex 的分层索引和推理驱动的检索机制，能够从复杂的财务报告（如 SEC 文件和收益披露）中精确导航和提取相关上下文。

请查阅完整的基准测试结果和我们的博客文章，以获取详细的比较和性能指标。

🧭 资源

🧪 实践教程：可运行的动手示例和高级用例。
📖 教程：实用指南和策略，包括文档搜索和树搜索。
📝 博客：技术文章、研究见解和产品更新。
🔌 MCP 设置与 API 文档：集成详情和配置选项。

⭐ 支持我们

如果您喜欢我们的项目，请为我们点亮一颗星 🌟。谢谢！

PageIndex：无需向量数据库的智能文档分析框架，实现类人检索

AIAI Summary (BLUF)

📢 最新动态

🔥 产品发布

📝 技术文章

🧪 实践教程

📑 PageIndex 简介

🎯 核心特性

🛠️ 部署选项

🧪 快速上手

🌲 PageIndex 树状结构

⚙️ 使用指南

📈 案例研究：PageIndex 领跑金融问答基准测试

🧭 资源

⭐ 支持我们

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

📢 最新动态

🔥 产品发布

📝 技术文章

🧪 实践教程

📑 PageIndex 简介

🎯 核心特性

🛠️ 部署选项

🧪 快速上手

🌲 PageIndex 树状结构

⚙️ 使用指南

📈 案例研究：PageIndex 领跑金融问答基准测试

🧭 资源

⭐ 支持我们

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择