KDD 2026 MKG-RAG-Bench：让多模态知识图谱 RAG 的“检索短板”真正暴露出来

张

张建站

2026/6/30 1:54:34

10分钟阅读

KDD 2026 MKG-RAG-Bench：让多模态知识图谱 RAG 的“检索短板”真正暴露出来

当 RAG 从文本语料走向知识图谱再进一步走向图像、文本、数值等多模态知识时真正困难的地方不只是“生成答案”而是模型到底能不能从多模态知识图谱中找对证据。近年来检索增强生成Retrieval-Augmented Generation, RAG已经成为提升大语言模型事实性和可靠性的重要技术路线。传统 RAG 通常从文本语料库中检索相关段落再将这些证据输入大语言模型生成答案。随后知识图谱增强生成KG-RAG进一步引入结构化三元组或子图使模型能够利用更加清晰、可追踪、关系明确的外部知识。然而现实世界中的知识并不总是以纯文本形式存在。医学影像、地标图片、结构化实体关系、视觉属性、表格数值等信息往往共同构成一个完整的知识系统。面对这种情况单纯依赖文本检索或普通多模态 RAG 已经不够。于是一个更复杂也更现实的问题被提出如何在多模态知识图谱上进行 RAG这篇论文围绕这一问题提出了MKG-RAG-Bench一个面向多模态知识图谱增强生成的检索评测基准。与许多只关注最终问答效果的多模态 RAG benchmark 不同作者把“检索”单独拎出来作为多模态 KG-RAG 系统中最核心、也最容易被忽视的环节进行系统评估。一、研究背景RAG 不再只是文本检索传统 RAG 的核心流程比较直接给定一个问题系统先从外部语料中检索相关文本再让大语言模型基于这些文本生成答案。这种方法能够缓解模型幻觉也能让回答更加有事实依据。但传统文本 RAG 存在一个明显问题文本语料通常是非结构化的信息可能分散、重复、噪声较多复杂关系也不容易被显式建模。知识图谱 RAG 因此成为一个重要方向。知识图谱以三元组形式组织知识例如实体 — 关系 — 实体这种结构天然适合表达实体之间的逻辑关系也更适合支持多跳推理、证据追踪和关系理解。不过现有 KG-RAG 大多仍然集中在文本知识图谱上即实体和关系主要以文字描述为主。可是在真实场景中很多关键知识来自图像或其他模态。例如医学问答可能需要结合医学影像地标识别可能需要结合图片和地理知识商品、疾病、建筑、物体等实体可能同时具有文本属性和视觉属性某些问题需要从图像线索出发检索结构化关系中的答案。因此作者将问题推进到一个更复杂的设定多模态知识图谱增强生成简称 MKG-RAG。在 MKG-RAG 中系统面对的不再只是文本语料也不是普通知识图谱而是包含文本、图像等多种信息的结构化多模态知识图谱。模型需要根据问题从多模态知识图谱中检索相关三元组或子图再利用这些证据生成答案。二、核心问题多模态 KG-RAG 的瓶颈其实在检索这篇论文的一个重要判断是当前 MKG-RAG 的关键瓶颈不只是生成模型能力而是检索质量。如果检索器没有找到正确的证据即使后面的多模态大模型很强也很难生成准确答案。相反如果检索阶段能提供结构清晰、语义相关、模态对齐的证据生成阶段就会更容易得到正确结果。作者指出现有 benchmark 对这一点关注不够。很多多模态 RAG benchmark 更偏向最终生成效果通常从网页、PDF、图文文档等非结构化或半结构化来源检索信息。这类任务虽然重要但并不能充分反映多模态知识图谱 RAG 的特点。多模态知识图谱 RAG 至少有三个特殊难点第一检索对象更加复杂。普通 RAG 检索的是文本段落多模态 RAG 可能检索文本和图片而 MKG-RAG 检索的是多模态三元组或结构化知识。一个候选知识单元可能同时包含实体、关系、文本描述和图像信息。第二查询和知识之间存在模态差异。问题可能是纯文本但答案证据可能需要图像支持问题也可能包含图像而目标知识却是文本关系。也就是说模型不能只做表面文本匹配而必须具备跨模态对齐能力。第三知识图谱中的三元组不一定都适合构造问答。很多三元组过于普通例如“太阳是一颗恒星”这类知识即使没有检索也容易回答。若直接用这类三元组构建 benchmark模型表现可能并不能真实反映检索能力。因此作者认为需要一个专门面向 MKG-RAG 的 benchmark既要覆盖多模态知识图谱又要能单独评估检索还要能进一步观察检索质量如何影响生成质量。三、为什么不能直接拼接现有数据集作者没有简单地把已有多模态知识图谱和现有视觉问答数据集拼起来而是先做了一个很有说服力的初步实验。实验中作者尝试使用医学多模态知识图谱 MedMKG 来增强医学视觉问答任务包括 VQA-RAD 和 SLAKE。直觉上看多模态医学知识图谱应该能帮助医学问答但结果却并不理想加入检索增强后模型表现反而没有超过不使用 RAG 的设置。这个结果说明一个关键问题已有知识图谱和下游问答任务之间可能并不对齐。具体来说可能存在两种情况问题真正需要的知识并不在知识图谱中检索器找到了看似相关但实际无关的知识反而向生成模型输入了噪声。这也解释了为什么不能粗暴地把一个多模态知识图谱和一个问答数据集放在一起就声称完成了 MKG-RAG benchmark。真正有效的 benchmark 必须保证问题、答案、检索目标和知识图谱证据之间具有明确对应关系。四、MKG-RAG-Bench一个专门评测“多模态图谱检索”的基准为了解决上述问题作者提出了MKG-RAG-Bench。这个 benchmark 的核心目标不是单纯考察大模型能不能回答问题而是系统评估在多模态知识图谱增强生成中检索器能不能找对结构化、多模态、可用于回答问题的证据。MKG-RAG-Bench 具有几个鲜明特点1. 面向多模态知识图谱而不是普通网页语料。它的知识源是明确的多模态知识图谱知识以结构化三元组形式组织而不是松散的网页段落或文档片段。2. 同时覆盖通用领域和医学领域。作者使用了两个多模态知识图谱一个来自通用领域一个来自医学领域。这种设计可以观察方法在不同领域中的泛化能力。3. 同时评估检索和生成。很多 benchmark 只看最终答案但 MKG-RAG-Bench 将检索阶段单独评估并进一步观察不同检索结果对最终生成效果的影响。4. 支持文本查询和多模态查询。benchmark 中既有纯文本问题也有带图像 grounding 的多模态问题可以更细致地分析不同模态组合下的检索难度。从论文表1可以看到已有 benchmark 要么基于网页或文档要么基于文本知识图谱有些只评估生成有些只评估检索。相比之下MKG-RAG-Bench 同时具备多模态知识图谱、结构化检索单元、多模态查询支持、检索与生成双阶段评估以及跨领域覆盖等特点。五、benchmark 如何构建从三元组到可评测问题MKG-RAG-Bench 的构建流程是这篇论文最重要的部分之一。作者并不是直接把知识图谱三元组变成问题而是设计了一个较为严谨的三阶段 pipeline。LLM-based Utility Filtering先筛掉低价值三元组多模态知识图谱中并不是所有三元组都适合用来构造问答。有些三元组过于简单、泛化或定义化生成的问题可能不需要外部知识也能回答。这样的样本会削弱 benchmark 的区分度。因此作者使用 LLM 对原始三元组进行 utility filtering也就是判断某个三元组是否能支持一个清晰、有信息量、需要检索的问题。例如类似“Sun — is_a — star”这样的三元组虽然正确但很容易生成“太阳是什么”这类过于简单的问题。这种问题并不能有效测试检索能力因此会被过滤掉。通过这一步benchmark 保留下来的三元组更加适合构造需要外部知识支持的问题。Controlled Masking通过遮盖三元组构造信息缺口为了让问题真正需要检索作者对保留下来的三元组进行 controlled masking。对于一个三元组head entity — relation — tail entity作者主要构造两类遮盖形式遮盖关系给定头实体和尾实体让模型推断二者关系遮盖尾实体给定头实体和关系让模型推断尾实体。作者没有遮盖头实体因为遮盖头实体容易引入实体消歧问题可能让评测偏离检索本身。保留头实体作为语义锚点也更有利于多模态 grounding。这种设计的好处在于每个问题都能明确对应到一个原始三元组因此 retrieval supervision 和 answer supervision 都比较清楚。Hybrid Question Synthesis把结构化模板变成自然问题遮盖后的三元组虽然适合构造监督信号但还不像真实用户问题。于是作者继续使用 LLM 将这些结构化模板转化成自然语言问题。这里分为两种模式文本问题合成。如果三元组主要是文本知识LLM 会生成纯文本问题。例如给定“penicillin — [Mask] — bacterial infection”可以生成“青霉素和细菌感染之间是什么关系”这类问题。图像 grounding 问题合成。如果头实体关联图像作者会把图像提供给 LLM并要求问题中用“图像中的对象”来指代该实体而不是直接写出实体名称。这样可以避免模型仅靠实体名字做文本匹配也能真正测试视觉 grounding 能力。例如对于“Eiffel Tower — located_in — [Mask]”问题可以变成“图像中的地标位于哪座城市”这种设计让 benchmark 同时包含自然语言问题和视觉 grounding 问题并且每个问题都能追溯到明确的知识图谱三元组。六、数据规模通用领域与医学领域形成互补MKG-RAG-Bench 包含两个子集MKG-RAG-Bench-G基于通用领域多模态知识图谱 MarKG 构建MKG-RAG-Bench-M基于医学领域多模态知识图谱 MedMKG 构建。两个子集都被划分为训练集、验证集和测试集比例为 8:1:1。每个划分中都包含文本样本和多模态样本而不是把不同模态完全分开。这种设置更接近真实使用场景因为实际系统面对的问题往往并不会提前告诉模型应该使用哪种模态。从表2可以看到通用领域子集的查询数量明显更多而医学领域子集的三元组数量相对较多。这与底层知识图谱结构有关。医学知识图谱中常出现一对多关系例如某个疾病、器官或临床概念可能通过同一种关系连接到多个对象因此多个三元组可能产生相似甚至相同的查询形式。通用领域知识图谱则相对稀疏实体关系更加分散因此能够产生更多不同形式的问题。这种差异也让 benchmark 更有价值它不仅测试模型在一般语义场景下的表现也测试模型在医学这种细粒度、专业化、视觉差异微妙的场景下的能力。七、实验设置五种模态组合全面测试检索能力为了系统分析不同模态组合对检索和生成的影响作者设计了五种评测设置S1所有查询检索所有三元组。这是最接近真实场景的设置系统需要在混合模态查询和混合模态知识中完成检索。S2文本查询检索文本三元组。这个设置接近传统文本检索用于观察模型在纯文本条件下的表现。S3文本查询检索所有三元组。这个设置用于分析加入多模态三元组是否会帮助文本查询还是只会扩大候选空间。S4多模态查询检索多模态三元组。这个设置重点考察视觉 grounding 条件下多模态检索器是否能找到正确证据。S5多模态查询检索所有三元组。这个设置进一步分析文本三元组是否能为多模态查询提供补充证据或者是否会带来干扰。作者评估了多类 retriever包括Text-only retrieverFusion-based multimodal retrieverCaptioning-based retrieverReranking-based retrieverRandom baseline。检索阶段使用 NDCGK、PrecisionK 和 RecallK 作为指标生成阶段则使用 EM、F1、Contains1 和 BLEU-1 等指标。八、主要发现多模态检索远比想象中困难论文的实验结果集中说明了一件事MKG-RAG 的关键困难确实在检索而且这个困难在多模态和专业领域中更加明显。文本查询并不会自然受益于多模态三元组在文本查询场景中如果候选空间从文本三元组扩展到所有三元组性能变化并不大。换句话说单纯把多模态知识加入候选库并不会自动提升文本查询的检索效果。这说明多模态知识并不会通过“混合索引”自然发挥作用。模型需要显式的跨模态对齐机制否则文本查询很难真正匹配到有价值的多模态知识。多模态查询必须依赖真正的多模态表示当查询涉及图像 grounding 时text-only retriever 的性能明显下降因为它无法利用图像信息。Captioning-based 方法虽然把图像转成文字描述但 caption 本身可能遗漏关键信息也可能生成不准确描述因此表现也受到限制。相比之下fusion-based 方法能直接把视觉和文本信号编码到共享表示空间在通用领域表现更好。Reranking-based 方法则在医学领域更有优势因为医学图像往往差异细微专业术语也更复杂需要更精细的候选重排和相关性判断。医学领域明显更难实验显示多模态检索在医学领域上的难度显著高于通用领域。原因并不难理解医学图像通常视觉差异更小很多关键信息隐藏在细微区域同时医学实体和关系更加专业术语之间的边界也更细。因此通用领域有效的检索策略不一定能直接迁移到医学领域。专业领域的 MKG-RAG 需要更强的领域适配能力包括领域视觉编码器、专业术语建模以及更可靠的 reranking 机制。生成效果高度依赖检索质量生成实验进一步证明检索质量几乎直接决定最终问答效果。在很多设置下加入检索增强后生成效果明显优于 RAG-free baseline。这说明 benchmark 中构造的问题和知识图谱证据确实是对齐的检索到正确三元组能够帮助模型回答问题。但多模态场景下的提升并不稳定。只有当检索器真正具备较强多模态对齐能力时生成模型才能从检索证据中受益。如果检索阶段找错证据后续生成模型很难弥补这个错误。这也揭示了 MKG-RAG 的核心规律生成模型不是万能补救器。检索阶段的错误会直接传导到最终答案。论文意义把 MKG-RAG 的研究焦点从“能不能答”推进到“能不能找对”这篇论文的价值不在于提出一个新的检索模型而在于提出了一个更清晰的问题框架和评测基准。它强调在多模态知识图谱增强生成中不能只看最终答案还必须认真评估检索阶段。MKG-RAG-Bench 的贡献主要体现在三个方面。第一它明确提出了 MKG-RAG 的 benchmark 缺口。现有多模态 RAG benchmark 大多围绕网页、文档或非结构化图文内容展开现有 KG-RAG benchmark 又多以文本知识图谱为主。MKG-RAG-Bench 则聚焦于结构化多模态知识图谱填补了两者之间的空白。第二它建立了检索和生成之间的可控连接。每个问题都来自明确的三元组遮盖过程因此问题、答案和正样本证据之间具有清晰对应关系。这使得研究者可以更准确地判断模型失败到底是因为检索错了还是因为生成模型没有利用好证据。第三它揭示了当前多模态检索方法的局限。实验表明简单文本检索、图像 caption 转文本、普通融合编码都还不足以完全解决 MKG-RAG。未来更有前景的方向可能包括显式跨模态对齐图结构感知的检索关系敏感的三元组匹配基于邻域或路径的证据聚合面向专业领域的视觉与文本编码器更强的 reranking 或 verifier 模块更合理的证据组织与输入格式设计。总体来看MKG-RAG-Bench 将多模态知识图谱 RAG 的研究重点从“模型是否能生成答案”进一步推进到“模型是否能找到正确证据”。这种转变非常重要因为对于真实世界中的可信 AI 系统而言答案本身固然重要但答案背后的证据来源、检索路径和知识 grounding 同样关键。这篇论文因此提供了一个较好的研究起点未来的 MKG-RAG 系统不应只是把图像、文本和知识图谱简单拼接起来而应该真正理解不同模态之间的关系并在结构化知识空间中完成可靠、可解释、可验证的检索与生成。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

20个RAG核心概念：从切文档到出答案，小白也能掌握大模型应用技巧！收藏必备！

给客服系统接了一套 RAG，文档塞了几千份，用户问一个简单的退款政策，答出来的还跟没接是一样。第一反应永远是怪大模型不够强，从 GPT 切到 Claude，再切到通义千问，数据没好，反而越换越乱。 RAG …...

2026/6/30 1:50:16 阅读更多 →

Vibe Coding：人机协作软件开发方法论与实践

Vibe Coding：人机协作软件开发方法论与实践 —— 以亿级网格油藏三维可视化系统构建为例摘要大语言模型（LLM）的快速进展为软件工程开启了新的可能性。然而，“AI辅助编程"常被误解为"AI承担全部编码工作”。本文提出 …...

2026/6/30 1:40:33 阅读更多 →

KAIKAKU研究揭示盲区:多个AI模型组团真的比单个更强吗？

这项由KAIKAKU机构完成的研究，于2026年6月25日以预印本形式发布，论文编号为arXiv:2606.27288v1，感兴趣的读者可通过该编号查阅完整论文。当越来越多的企业开始把多个AI模型拼在一起用，期待"三个臭皮匠顶个诸葛亮"的时候…...

2026/6/30 1:39:16 阅读更多 →

【Claude】You‘ve hit your session limit 会话限制报错已解决

【Claude】Youve hit your session limit 会话限制报错已解决关键词：Claude Code、session limit、weekly limit、Opus limit、使用额度、/usage、/usage-credits、Pro Max 计划一、问题现象：Claude 突然"拒绝服务" 正在用 Claude Code 写代码…...

2026/6/29 1:19:07 阅读更多 →