本周项目仍在稳步推进具体工作如下详情可见具体的个人博客一、 知识库建设与数据预处理完成《儿科学》人卫第九版近500 页教材的数字化转换成功提取为高保真 Markdown 格式。实现复杂医学表格的结构化还原保留原生 HTML 标签以支持“合并单元格”的精准解析。集成默沙东医疗网站 JSON 数据完成2690条涵盖八大类疾病的结构化医学文档切块。建立双索引检索机制同步构建 ChromaDB向量语义与 BM25关键词稀疏知识库。引入jieba医学专用词典进行术语增强显著提升了中医及西医专业名词的分词准确率。二、 RAG 检索管线与系统开发基于LangGraph架构开发并集成了RAGRetrievalNode检索节点打通分诊至诊断的自动化工作流。实现QueryRewriter模块支持将病患的结构化特征自动重写为专业的医学检索语句。应用RRF倒数排名融合算法与Reranker精排模型实现了多源检索结果的深度融合与排序。在 Web 前端集成“知识库检索依据”模块支持医学参考文献的详情展开、原文链接跳转及锚点定位。优化ReviewAgent验证逻辑通过Pydantic协议增强了多智能体协作时JSON数据交换的健壮性。三、 自动化测试框架构建基于PediaBench标准设计并实现了儿科专属自动化评测框架。定义统一数据模型支持单选、多选、判断、简答、病例分析、配对题等6类题型的自动装载。开发解耦式BaseAnswerEngine接口支持对直接调用LLM、RAG管线及Agent工作流进行横向对比测试。实现自动化评分与报告系统可定量汇总各题型的正确率、得分率及平均响应耗时。集成针对主观题简答、病例分析的关键词重合率评分模块及 LLM 裁判接口。四、 行业调研与优化策略分析深度研读PediaBench(Wu et al., 2024) 论文确立了项目在 12 类儿科疾病领域的评测基准。通过基准测试识别出当前系统在具体药物剂量、多步临床推理、以及中英文一致性方面的核心短板。分析并总结了LLM在医学诊断中“过度依赖统计关联而缺乏病理生理理解”的根源问题。确立了后续研发重点通过强化儿科医学知识注入、思维链CoT逻辑优化及指令跟随增强提升决策系统的专业可靠性。