BookRAG：让每份文档都拥有一棵树、一个图谱和一个 Agent

张

张建站

2026/4/23 17:33:47

10分钟阅读

在真实的企业环境中知识很少整齐地躺在 FAQ 里。更多时候它们深埋在技术手册、API 参考、SOP 与论文等长文档中——这些文档更像“书”带有章节与小节嵌入表格与公式呈现清晰却复杂的层级结构。但现有的 RAGRetrieval-Augmented Generation系统——包括基于文本的图方法与基于版式分割的方法——往往会因为结构与语义的脱节、以及固定不变的工作流而失效。这篇文章或许能提供一个有用的视角。为什么大多数 RAG 系统难以应对“类书籍”的文档两条传统路径及其局限处理此类文档人们主要采用两种范式。Text-first approach将一切“压平”为纯文本主要依赖 OCR然后用 BM25、经典基于 chunk 的 RAG或 GraphRAG、RAPTOR 这类图方法进行检索。GraphRAGDoes GraphRAG Really Outperform RAG?从文本构建知识图谱Knowledge GraphKG并用社区发现形成带摘要的层级簇。RAPTORAdvanced RAG 12: Enhancing Global Understanding递归地对 chunks 聚类与总结形成类似树的结构。Layout-first approach尽可能保留原始版面将内容切分为结构化块段落、表格、图像、公式并用多模态检索或基于 LLM 的处理流水线如 DocETL来处理相关块。Figure 1: Comparison of existing methods and BookRAG for complex document QA. [Source].两条路径都聪明、都有用。但一旦遇到“类书籍”文档就会碰上两个根本性难题问题一结构与语义的脱节Text-first 路线剥离了文档的结构上下文丢失了章节与子章节、以及诸如表格等内容之间的隶属关系。你无法判断某张表到底属于哪一节。Layout-first 路线保留了单个内容块但很难刻画块与块之间——尤其是跨章节的——关系。这让多跳推理变得困难且不稳定。问题二僵硬、单一路径的工作流真实世界的提问既可能是简单定义查询也可能是跨多节的复杂比较。但多数 RAG 流水线依赖固定的查询处理流程导致简单问题上效率低下复杂问题上表现不佳。简而言之大多数面向文档级别的 RAG 系统要么忽视了文档的层级结构要么缺乏面向查询的、可自适应的检索工作流。结果往往是证据要么找不全要么找得低效在一些版面感知的流水线如 DocETL中相比 BookRAG这也会带来更高的 Token 成本与时延。BookRAGOne Tree One Graph One Link One AgentFigure 2: Comparison of representative methods and BookRAG. [Source].为破解这些局限提出了 BookRAG——一个专为强层级结构文档打造的 RAG 框架。核心思想是构建一个原生于文档的索引 BookIndex将版面块的层级树与细粒度实体的知识图谱整合起来并通过 Graph–Tree 的映射连接两者随后引入一个基于 Agent智能体、下同的检索器受 Information Foraging Theory信息觅食理论IFT启发对查询进行分类并沿着“信息气味information scent”在索引中动态导航。从高层看BookRAG 建立在三个关键组件之上。构建 BookIndexBookIndex 将结构与语义合而为一。Figure 3: The BookIndex Construction process. This phase includes Tree Construction, derived from Layout Parsing and Section Filtering, and Graph Construction, which involves KG Construction and Gradient-based Entity Resolution. [Source].从 PDF 到 TreeLayout Parsing Section Filtering首先将文档解析为一个层级 Tree代表目录table of contents与其对应的内容块。具体而言先做版面解析Layout Parsing实验中用 MinerU把 PDF 切成单独的内容块。每个块都带有元数据比如“这是标题”“这是正文”“这是表格”以及字号、位置等版面细节。一个语言模型会复核那些“看起来像标题”的块判断它们是否真的是标题、以及在文档层级中的级别。完成后系统按标题级别把所有块串联起来构建一棵 Tree。它构成了 BookIndex 的结构主干支撑后续的检索、推理与问答。从 Tree 到 GraphMultiModal Entity GT-Link接着从 Tree 中抽取知识图谱Knowledge GraphKG捕捉细粒度的实体及其关系。具体做法是Tree 建好后对每个节点做实体与关系抽取。文本块交给语言模型含图像的块交给多模态模型。对表格与公式增加了特殊处理其中对表格会抽取“行/列表头”作为实体并通过“ContainedIn”关系与表格节点相连。随后使用一种新颖的基于梯度的实体消歧Entity Resolution方法将这些局部子图合并为全局 KG。该方法分析 reranker 的相似度分数并通过识别“陡降”来发现与合并共指实体。它既刻画“有哪些实体”也刻画“它们如何相连”。最后通过 GT-Link 将 Graph 与 Tree 连接起来把实体映射回其来源的树节点。结果形成结构三元组B (T, G, M)——Tree、Graph 与 Mapping。更具体地说GT-Link 在 Graph 与 Tree 之间建立了双向桥梁从任一实体出发都能反查到它来自哪些 Tree 节点如某节、某张表、某段文字反之Tree 中的每个章节也能暴露其包含的实体。结构与语义被紧密耦合——系统不止“知道它是什么”还知道“它在文档的什么位置”。用“梯度”做更聪明的实体消歧为保障在知识图谱上的高质量推理BookRAG 采用了基于梯度gradient-based的实体消歧方法。它不做对所有实体的二次方级配对比较而是把实体消歧重述为对每个新实体的增量式查找。在单文档clean ER设定下每出现一个新实体系统都会问它是否只是一个已出现实体的别名为回答这个问题系统先从向量数据库拉取候选短名单用打分模型排序然后检测相似度分数是否出现“陡降”。若观察到明显的分数陡降系统会分离出高置信候选集若集合中只有一个实体直接合并若有多个则调用 LLM 在这些别名中挑选一个规范实体并把新实体合并进去。若没有陡降则将其视作一个全新条目。这种“看梯度”的方法避免了穷举配对的高成本同时保持图谱干净紧凑——比如把 “LLM” 与 “Large Language Model” 统一到单一节点下。基于 Agent 的自适应检索Figure 4: The general workflow of agent-based retrieval in BookRAG, which contains agent-based planning, retrieval, and generation processes. [Source].借鉴 Information Foraging TheoryIFTBookRAG 引入一个 Agent 来根据问题类型定制检索策略Single-hop直接查找型问题Multi-hop需要跨章节推理的问题Global aggregation需要通读全篇后做汇总的问题。Figure 5: The BookRAG Operator Library and an Execution Example from MMLongBench dataset: (a) a visual depiction of the four operator types (Formulator, Selector, Reasoner, and Synthesizer) and (b) an execution trace for a “Single-hop” query, demonstrating the agent-based planning and step-by-step operator execution. [Source].Agent 会产出一个由模块化 Operators算子组成的动态计划——有的用于沿“信息气味”导航至相关区域有的用于过滤块有的用于推理或综合答案。每个查询都会按需走一条专属路径。这种设计让 BookRAG 即使面对冗长而复杂的文档也能在精准与效率之间取得平衡。案例研究Figure 6: Case study of responses across different query types from MMLongBench and Qasper. CYAN TEXT highlights correct content generated by BookRAG. GRAY TEXT describes the internal process, and marks omitted irrelevant parts. [Source].Figure 6 展示了 BookRAG 处理三类查询Single-hop、Multi-hop、Global aggregation的端到端过程。Single-hop——缩小搜索空间在 Qasper 数据集的一个事实性问题中BookRAG 先用 Extract operator 识别相关实体再用 Select_by_Entity 过滤 Tree将推理范围从 134 个节点缩小至 24 个。随后运行 Graph_Reasoning 与 Text_Reasoning 打分并用 Skyline_Ranker 选出最终 8 个高置信节点来生成答案。Global aggregation——精准过滤与计数在 MMLongBench 的一个全局类问题中问题需要统计特定页范围内的图片数量。BookRAG 用 Filter_Range 选择第 1–10 页用 Filter_Modal 筛出图像块。将这一精准子集交给 Map 与 Reduce 执行特定的聚合操作如 COUNT得到最终答案。Multi-hop——分而治之对于比较两个系统的复杂查询Agent 使用 Decompose 将其拆分为子问题分别检索作答后再综合。评估实验不仅证明了 BookRAG 的问答准确性。它还强调了另外两点优势检索覆盖度能否找全相关信息与效率成本与时延。完整评估请参见参考文献。想法对于长文档上的复杂问答——如结构化手册、技术报告或科研论文——BookRAG 提供了一条经基准验证的强力设计思路。它构建了原生于文档的索引 BookIndex将层级 Tree、知识 Graph 与将实体映回结构位置的 Graph-Tree Link 融为一体。在此之上引入能“顺着信息气味”寻找答案的 Agent。但在真实部署中我有一个担忧当前的实体消歧只在单文档内合并。在企业级场景里知识往往跨越成百上千个文档跨文档的实体统一将成为刚需。在我看来一个有前景的方向是把 BookIndex 不仅视为检索索引更把它当作文档的原生知识层。它不仅服务于 QA也可支持一致性检查、结构化总结、甚至交叉引用修复。此时Tree-Graph 结构将成为文档生命周期的一部分而非仅仅是为更好 RAG 打的“后端补丁”。再往前想Agent 的 operator 规划是否可以演进为一个可学习的策略层借助足够的交互日志或强化学习系统也许能自我调优——决定何时运行哪些 operators、何时简化、以及如何在保证表达力的同时维持高效。这类“可控性”正是走向生产落地所需要的。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】