版本:LlamaIndex 0.12.x定位:让数据处理流程标准化、可复用、可追踪源码关联:llama_index.core.ingestion1. 项目背景某公司法务部门每月收到上百份合同文档(PDF 格式),包括采购合同、服务协议、NDA 保密协议等。他们希望将这些合同导入知识库,支持按合同编号、甲乙方、合同金额、有效期等维度进行检索。但目前的处理方式是:手动打开每个 PDF → 复制粘贴到 Markdown → 人工填写元数据 → 导入索引。一份合同平均耗时 15 分钟,每月耗费约 25 小时人力。深入审视这个手工流程,暴露了数据处理的四大核心问题:问题一:不可重复。同样的文档换了人处理,结果不同。张三可能保留了合同的"鉴于条款"段落,李四却删掉了(觉得对检索没用);王五给合同编号字段命名为contract_id,赵六却写成contract_no。一模一样的输入,产出五花八门——这就是缺乏标准化流水线的代价。问题二:无追溯。三个月后,业务方查到一个答案引用了某条合同数据,但没人能说清楚——这条数据是什么时候导入的?用了什么切分参数?元数据是谁填写的?就像快递包裹上没有寄件人信息,出了问题谁也找不到根因。问题三:无容错。100 份合同的导入脚本跑到第 73 份时,遇到一个格式损坏的 PDF 抛了异常——整个批次中断。前面 72 份的进度丢了,不