MinerU 系列教程第十一课：表格识别 - 有线与无线的双引擎

张

张建站

2026/7/27 6:31:55

10分钟阅读

MinerU 系列教程第十一篇本篇教程继续模块三：深入篇 - AI 模型详解，将聚焦文档解析中最具挑战性的子任务之一 —— 表格识别。文档中的表格千差万别：有的用清晰的线条分隔（有线表格），有的完全依靠空白和对齐来组织（无线表格）。MinerU 为此设计了一套双引擎方案：先用分类器判断表格类型，再分别调用 SLANET-Plus（无线）和 UNet（有线）两个识别引擎，最终生成标准的 HTML 表格代码。此外，表格图像可能因扫描倾斜而旋转，MinerU 还引入了方向分类器来自动矫正。你将看到从分类、结构识别、OCR 匹配到 HTML 生成的完整流水线。学习目标完成本课学习后，你将能够：理解表格识别在文档解析流水线中的位置与编排顺序掌握表格分类器PaddleTableClsModel的 224x224 预处理与有线/无线判定逻辑理解无线表格引擎 SLANET-Plus 的"结构预测 + OCR 匹配"工作流理解有线表格引擎 UNet 的"线检测 → 单元格提取 → 行列恢复"工作流了解有线/无线双引擎的竞争选择机制掌握表格内联对象（图片、公式）的检测与注入流程理解图像方向分类器PaddleOrientationClsModel的三级筛选策略读懂表格识别相关核心源码的完整结构

$MinerU 系列教程第十二课：公式识别 - LaTeX 的自动生成$

MinerU 系列教程第十二课：公式识别 - LaTeX 的自动生成

MinerU 系列教程第十二篇本篇教程作为模块三：核心模型深度解析的第四课，将深入剖析 MinerU 的公式识别（MFR，Mathematical Formula Recognition）子系统。我们将了解 UniMERNet 与 PP-FormulaNet Plus M 两种后端如何将文档中的数学公式图像转换为 LaTeX 字符串，探究动…...

2026/7/24 21:38:30 阅读更多 →

热轧钢带缺陷数据集，称为Xsteel表面缺陷数据集（X-SDD），其中包含七种典型的热轧带钢缺陷类型，共有1360个缺陷图像。与常用的NEU表面缺陷数据库（NEU-CLS）的六种缺陷类型相比，X-SD

热轧钢带缺陷数据集，称为Xsteel表面缺陷数据集（X-SDD），其中包含七种典型的热轧带钢缺陷类型，共有1360个缺陷图像。与常用的NEU表面缺陷数据库（NEU-CLS）的六种缺陷类型相比，X-SDD包含…...

2026/7/26 23:19:02 阅读更多 →

【GitHub项目推荐--LingBot-Map：流式 3D 重建的几何上下文 Transformer】⭐⭐⭐⭐⭐

LingBot-MapGitHub 地址：https://github.com/Robbyant/lingbot-map 简介 LingBot-Map 是由 Robbyant 团队开源的一个前馈式 3D 基础模型，专为流式（Streaming）3D 场景重建而设计。它摒弃了传统 SLAM 或 NeRF 需要复杂迭代优化的…...

2026/7/26 23:25:48 阅读更多 →

大模型 Agent 三面被问：怎么解决 Skill 的依赖关系？我是这么答的

前段时间有个读者去面某大厂的 Agent 岗位，三面被甩出来一道题当场卡壳。题目听着挺朴素：“如果你的 Agent 里面有很多 Skill，Skill 之间还存在依赖关系的话，你打算怎么去设计来解决这个问题？” 他跟我复盘的时候说&a…...

2026/7/26 0:13:33 阅读更多 →

抱怨应试教育的苦，却不知道：那已经是人生里最轻松、最公平的一段路了

能靠考试得到的东西，都是天上掉馅饼上学的时候，总觉得考试是天底下最熬人的苦。背不完的知识点，刷不完的题，熬不完的夜，一张卷子定输赢的应试制度，曾被无数人吐槽是束缚、是枷锁。那时候总天真地以为，等走出校园、踏入社会，就能摆脱考试的桎梏，凭真本事自由闯荡。 …...

2026/7/26 0:20:22 阅读更多 →

华硕笔记本终极控制工具：如何用G-Helper取代臃肿的Armoury Crate

华硕笔记本终极控制工具：如何用G-Helper取代臃肿的Armoury Crate 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Z…...

2026/7/26 0:31:13 阅读更多 →