ysf
ysf
Published on 2026-04-03 / 13 Visits
0

PageIndex

PageIndex是一个创新的“无向量、基于推理”的RAG框架,旨在解决传统RAG在处理长篇、结构化专业文档(如财务报告、法律文件、技术手册)时遇到的准确性不足和可解释性差等痛点。

PageIndex让AI像人类一样,通过阅读目录、理解结构、逐步深入的方式来查找信息,而不是在海量文本碎片中进行模糊匹配。

PageIndex 的核心理念

传统 RAG 的核心是语义相似度。它将文档切成小块(Chunking),转化为向量,然后通过计算向量间的相似度来检索。这种方法存在几个固有缺陷:

  • “感觉像”不等于“就是”:语义相似的片段可能在逻辑上并不相关。

  • 破坏上下文:暴力切分会切断文档原有的逻辑和结构,导致信息碎片化。

  • 无法处理跨页引用:当文档中提到“详见附录A”时,传统向量检索无法像人一样顺着线索去查找。

PageIndex 的核心思想是推理即检索(Inference as Retrieval)。它认为,真正的相关性需要推理才能确定。因此,它完全摒弃了向量数据库和文档分块,转而利用大语言模型(LLM)的推理能力,通过遍历文档的结构化索引来精准定位信息

PageIndex 的工作原理

PageIndex 的工作流程主要分为两个阶段:

  1. 索引阶段:构建“思维导图”
    系统会分析输入的长文档(主要是 PDF 和 Markdown),利用 LLM 为其构建一个层次化的树状索引。这个索引就像一个智能目录,每个节点都包含:

    • 标题 (Title):章节或段落的标题。

    • 摘要 (Summary):该部分内容的核心摘要。

    • 页码 (Page Range):该节点在原文档中的起止页码。

    • 子节点 (Sub-nodes):下一层级的结构。
      这个 JSON 格式的树状结构完整保留了文档的原始语义和逻辑边界。

  2. 检索阶段:模拟专家“翻阅”
    当用户提出问题时,系统不会直接进行全局搜索,而是启动一个推理过程:

    • 审视目录:LLM 首先查看整个树状索引的顶层结构,判断问题可能与哪个章节相关。

    • 逐层深入:LLM 沿着最相关的路径,从根节点逐步深入到子节点,不断缩小范围。

    • 定位内容:最终精准定位到包含答案的一个或几个具体节点,并提取其对应的原始文本内容。

    • 生成回答:将精准定位到的内容作为上下文,交给 LLM 生成最终答案。

主要优势

与传统 RAG 相比,PageIndex 具有以下显著优势:

  • 更高的准确性:基于结构和推理的检索,能更精准地找到真正相关的内容。在 FinanceBench(金融问答基准测试)中,基于 PageIndex 的模型准确率高达 98.7%,远超传统方法。

  • 强大的可解释性:整个检索过程是透明的。你可以清楚地看到 AI 是如何一步步推理,并最终定位到“第 X 页第 Y 节”的,这对于法律、金融等需要审计和验证的场景至关重要。

  • 保留完整上下文:按文档的自然结构进行索引,避免了暴力切块导致的上下文丢失问题,确保了信息的完整性。

  • 降低 LLM 成本:在检索过程中,LLM 首先处理的是精简的“节点摘要”,而非全文,这大大减少了 Token 消耗。只有在最后生成答案时,才会读取精准定位到的少量原文。

  • 无需向量数据库:架构更轻量,减少了维护向量数据库和嵌入模型的复杂性和成本。