PageIndex是一个创新的“无向量、基于推理”的RAG框架,旨在解决传统RAG在处理长篇、结构化专业文档(如财务报告、法律文件、技术手册)时遇到的准确性不足和可解释性差等痛点。
PageIndex让AI像人类一样,通过阅读目录、理解结构、逐步深入的方式来查找信息,而不是在海量文本碎片中进行模糊匹配。
PageIndex 的核心理念
传统 RAG 的核心是语义相似度。它将文档切成小块(Chunking),转化为向量,然后通过计算向量间的相似度来检索。这种方法存在几个固有缺陷:
“感觉像”不等于“就是”:语义相似的片段可能在逻辑上并不相关。
破坏上下文:暴力切分会切断文档原有的逻辑和结构,导致信息碎片化。
无法处理跨页引用:当文档中提到“详见附录A”时,传统向量检索无法像人一样顺着线索去查找。
PageIndex 的核心思想是推理即检索(Inference as Retrieval)。它认为,真正的相关性需要推理才能确定。因此,它完全摒弃了向量数据库和文档分块,转而利用大语言模型(LLM)的推理能力,通过遍历文档的结构化索引来精准定位信息
PageIndex 的工作原理
PageIndex 的工作流程主要分为两个阶段:
索引阶段:构建“思维导图”
系统会分析输入的长文档(主要是 PDF 和 Markdown),利用 LLM 为其构建一个层次化的树状索引。这个索引就像一个智能目录,每个节点都包含:标题 (Title):章节或段落的标题。
摘要 (Summary):该部分内容的核心摘要。
页码 (Page Range):该节点在原文档中的起止页码。
子节点 (Sub-nodes):下一层级的结构。
这个 JSON 格式的树状结构完整保留了文档的原始语义和逻辑边界。
检索阶段:模拟专家“翻阅”
当用户提出问题时,系统不会直接进行全局搜索,而是启动一个推理过程:审视目录:LLM 首先查看整个树状索引的顶层结构,判断问题可能与哪个章节相关。
逐层深入:LLM 沿着最相关的路径,从根节点逐步深入到子节点,不断缩小范围。
定位内容:最终精准定位到包含答案的一个或几个具体节点,并提取其对应的原始文本内容。
生成回答:将精准定位到的内容作为上下文,交给 LLM 生成最终答案。
主要优势
与传统 RAG 相比,PageIndex 具有以下显著优势:
更高的准确性:基于结构和推理的检索,能更精准地找到真正相关的内容。在 FinanceBench(金融问答基准测试)中,基于 PageIndex 的模型准确率高达 98.7%,远超传统方法。
强大的可解释性:整个检索过程是透明的。你可以清楚地看到 AI 是如何一步步推理,并最终定位到“第 X 页第 Y 节”的,这对于法律、金融等需要审计和验证的场景至关重要。
保留完整上下文:按文档的自然结构进行索引,避免了暴力切块导致的上下文丢失问题,确保了信息的完整性。
降低 LLM 成本:在检索过程中,LLM 首先处理的是精简的“节点摘要”,而非全文,这大大减少了 Token 消耗。只有在最后生成答案时,才会读取精准定位到的少量原文。
无需向量数据库:架构更轻量,减少了维护向量数据库和嵌入模型的复杂性和成本。