MinerU 系列教程 第十二篇本篇教程作为模块三:核心模型深度解析的第四课,将深入剖析 MinerU 的公式识别(MFR,Mathematical Formula Recognition)子系统。我们将了解 UniMERNet 与 PP-FormulaNet Plus M 两种后端如何将文档中的数学公式图像转换为 LaTeX 字符串,探究动态批处理的面积分组策略,以及一套精密的 LaTeX 后处理管线如何修复模型输出中的各种语法缺陷。学习目标完成本课学习后,你将能够:理解 MinerU 公式识别的两种后端架构及其适用场景掌握行间公式与行内公式在 Pipeline 中的不同处理路径理解基于面积的动态批处理分组策略(2 的幂次)深入了解 LaTeX 后处理管线的五大修复函数追踪公式识别在batch_analyze.py中的完整编排流程通过环境变量MINERU_FORMULA_CH_SUPPORT在两种后端之间切换一、公式识别在 Pipeline 中的位置在 MinerU 的文档解析流程中,公式识别处于版面分析之后、OCR 文字识别之前的关键位置。让我们先从全局视角理解它在 Pipeline 中的角色: