79万条中文医疗对话数据如何用真实医患问答训练你的医疗AI助手【免费下载链接】Chinese-medical-dialogue-dataChinese medical dialogue data 中文医疗对话数据集项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data在医疗人工智能快速发展的今天高质量的训练数据已成为构建智能医疗系统的关键基石。中文医疗对话数据集Chinese-medical-dialogue-data正是这样一个宝贵的资源宝库——它汇集了79万余条真实医患对话覆盖内科、外科、妇产科等六大核心科室为开发者提供了训练医疗NLP模型的黄金标准数据。数据宝库六大科室的医疗对话全景打开项目文件夹你会看到一个结构清晰的目录体系Data_数据/ ├── IM_内科/ # 22万条内科问答 ├── OAGD_妇产科/ # 18万条妇产科问答 ├── Surgical_外科/ # 11万条外科问答 ├── Pediatric_儿科/ # 10万条儿科问答 ├── Andriatria_男科/ # 9.4万条男科问答 └── Oncology_肿瘤科/ # 7.5万条肿瘤科问答每个科室文件夹中都包含一个精心整理的CSV文件数据格式简洁而实用字段描述示例department科室分类心血管科title问题标题高血压患者能吃党参吗ask详细提问我有高血压这两天女婿来的时候给我拿了些党参泡水喝...answer专业回答高血压病人可以口服党参的。党参有降血脂降血压的作用...数据分布医疗AI训练的理想配比查看项目中的data_distribution.txt文件你可以直观地看到数据的科室分布总计: 792,099 条对话数据 内科 | ████████████████████████████████████████ | 220,606 条 (27.9%) 妇产科 | █████████████████████████████████░░░░░░░ | 183,751 条 (23.2%) 儿科 | ██████████████████░░░░░░░░░░░░░░░░░░░░░░ | 101,602 条 (12.8%) 外科 | █████████████████████░░░░░░░░░░░░░░░░░░░ | 115,991 条 (14.6%) 男科 | █████████████████░░░░░░░░░░░░░░░░░░░░░░░ | 94,596 条 (11.9%) 肿瘤科 | █████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░ | 75,553 条 (9.5%)这种分布反映了真实医疗咨询的场景比例内科和妇产科占据了半壁江山这与现实中这两个科室咨询量最大的情况完全吻合。实战指南三分钟启动你的医疗AI项目第一步获取数据git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data cd Chinese-medical-dialogue-data第二步数据预处理项目贴心地提供了Data_数据/IM_内科/数据处理.py脚本展示了如何将CSV格式的对话数据转换为适合模型训练的文本格式# 示例将内科数据转换为问答对格式 asklist [] answerlist [] with open(内科5000-33000.csv) as f: for i in range(0,5000): lin f.readline()[0:-1].split(,) if i0: continue if len(lin) 4: if len(lin[1],lin[2])200 and len(lin[3])200: asklist.append(lin[1],lin[2]) answerlist.append(lin[3]) with open(内科.txt,w) as f: for i in range(len(asklist)): f.write(asklist[i]\nanswerlist[i]\n\n\n)第三步模型训练数据准备对于ChatGLM-6B等大语言模型的微调数据需要转换为特定的instruction格式{ instruction: 现在你是一个神经脑外科医生请根据患者的问题给出建议, input: 癫痫病能吃德巴金吗错觉有时候感觉看到的和听到的不太一样。, output: 巴金是广谱抗病药物主要作用于中枢神经系统对动物的药理研究发现德巴金对各种癫痫的实验模型全身性和部分性均有抗惊厥作用对人的各种类型癫痫发作有抑制作用作用机理可能与增加γ-氨基丁酸的浓度有关。主要是治癫痫药物。建议在医生的知道下用药祝您身体早日康复。 }性能验证微调效果显著提升项目README中展示了在ChatGLM-6B模型上的微调结果数据令人振奋评估指标基础模型P-Tuning V2LoRALoRA-INT8BLEU-43.213.554.213.58Rouge-117.1918.4218.7417.88训练参数占比/0.20%0.06%0.06%关键发现使用LoRALow-Rank Adaptation技术仅需调整0.06%的模型参数就能将BLEU-4分数从3.21提升到4.21相对提升超过31%这意味着你可以在保持模型大部分参数不变的情况下用极小的计算成本获得显著的性能提升。应用场景从学术研究到产品落地场景一智能分诊系统利用79万条对话数据你可以训练一个能够理解症状描述并推荐合适科室的AI分诊助手。想象一下用户输入最近总是头晕、心慌AI能够准确判断这可能是心血管科或神经内科的问题。场景二医疗问答机器人基于真实医患对话训练的专业问答机器人能够提供准确的医疗建议。例如当用户询问糖尿病患者可以吃水果吗AI可以基于数据中的专业回答给出科学建议。场景三医学教育辅助工具医学生可以通过与AI对话来练习问诊技巧AI基于真实病例数据提供反馈帮助医学生更好地掌握临床沟通技能。数据质量专业性与安全性的双重保障专业性验证所有对话都来自真实的医疗咨询场景涵盖了从常见症状到复杂疾病的广泛话题。数据中的医学术语使用准确回答内容符合临床规范。隐私保护数据集经过了严格的脱敏处理所有患者个人信息都被移除确保符合医疗数据安全标准。你可以在合规的前提下安心使用这些数据进行研究和开发。快速上手构建你的第一个医疗AI应用环境准备import pandas as pd import numpy as np # 加载内科数据 df pd.read_csv(Data_数据/IM_内科/内科5000-33000.csv, encodingGBK) print(f数据总量{len(df)}条) print(f字段信息{df.columns.tolist()}) print(f示例数据\n{df.head()})数据分析# 统计各科室问题长度分布 df[question_length] df[ask].str.len() df[answer_length] df[answer].str.len() print(f平均问题长度{df[question_length].mean():.1f}字符) print(f平均回答长度{df[answer_length].mean():.1f}字符) print(f最长回答{df[answer_length].max()}字符)构建训练集# 创建instruction格式的训练数据 train_data [] for _, row in df.iterrows(): instruction f现在你是一个{row[department]}医生请根据患者的问题给出专业建议 train_data.append({ instruction: instruction, input: row[ask], output: row[answer] })未来展望医疗AI的无限可能这个数据集不仅是一个静态的资源库更是一个动态的起点。随着医疗AI技术的不断发展它将在以下方向发挥更大价值多模态融合未来可以结合医学影像、检验报告等多维度数据构建更全面的医疗AI系统。个性化医疗基于患者的病史和对话模式提供个性化的健康管理建议。实时更新随着医疗知识的更新数据集可以持续扩充保持时效性和前沿性。跨语言应用虽然目前是中文数据集但其结构和模式可以为其他语言的医疗AI开发提供参考。开始你的医疗AI之旅无论你是学术研究者、AI工程师还是医疗行业的创新者这个79万条的中文医疗对话数据集都是你探索医疗AI领域的绝佳起点。它为你提供了真实场景基于实际医患互动的数据而非模拟对话专业内容涵盖六大科室的专业医疗知识易用格式清晰的CSV结构和预处理脚本已验证效果在ChatGLM-6B等模型上已验证的显著提升现在就开始使用这个数据集构建能够真正帮助医生和患者的智能医疗系统吧医疗AI的未来从理解真实的医患对话开始。【免费下载链接】Chinese-medical-dialogue-dataChinese medical dialogue data 中文医疗对话数据集项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考