癌症亚型分类新型多组学整合框架
摘要癌症仍是全球发病与死亡的主要诱因之一对全球公共卫生构成重大威胁。尽管癌症早期诊断与治疗方案已取得长足进步但肿瘤在分子与临床层面的高度异质性导致患者预后差异极大。因此精准识别癌症亚型是解析肿瘤异质性、优化预后评估、实现精准医疗的核心环节。近年来多组学技术为从基因组、表观基因组、转录组、蛋白质组等多层分子维度刻画癌症特征提供了全新可能但高效整合高维、异质的多组学数据仍是关键难题。此外现有多数基于图卷积网络的整合方法存在过平滑问题且深度特征表示利用率有限难以捕捉癌症生物学中复杂的多尺度关联。为解决上述问题本文提出用于癌症亚型分类的新型多组学整合框架MoJKNet。该框架引入跳跃知识网络JK-Net自适应聚合多传播深度的节点表示缓解过平滑问题并强化单组学模态内的特征提取再通过多模态自编码器结合相似性网络融合SNF捕捉跨组学互补信息最终依托「图注意力网络GAT」分配自适应特征权重实现癌症亚型精准预测。本文基于癌症基因组图谱TCGA的7种癌症数据集开展实验结果显示MoJKNet在精确率、召回率、F1值上全面优于MOGCAN、MOGONET、MoGCN等主流方法在结直肠癌COADREAD数据集上性能提升近10%消融实验进一步验证了跳跃知识机制对提升表示学习效果的核心作用。综上MoJKNet为多组学数据整合与癌症亚型分类提供了高效、可泛化的解决方案在下游生物学解析与临床转化中具备广阔应用潜力。https://www.kaggle.com/datasets/jiangjielou/the-cbioportal-for-cancer-genomicspanxiaoguanglnpu.edu.cn#自编码器 #癌症亚型分类 #图注意力网络 #跳跃知识网络 #多组学整合材料与方法数据集制备与预处理表1 7种癌症的多组学数据规模与标签分布多组学数据整合的分类模型图1 MoJKNet模型结构总览跳跃知识网络MoJKNet嵌入表示跳跃知识网络的特征学习表2 JKNet输入1与输入2的超参数调优加粗值为选定的最优超参数「其他」指TCGA-COADREAD以外的数据集COADREAD特指TCGA-结直肠癌数据集。图注意力网络的癌症亚型分类表3 图注意力网络GAT超参数调优加粗值为选定的最优超参数。实现细节与超参数设置表4 可复现性超参数调优实验结果性能对比表5 性能对比宏平均精确率%加粗值为各癌症数据集下所有对比方法的最优性能结果为5折交叉验证的均值±标准差。表6 性能对比宏平均召回率%加粗值为各癌症数据集下所有对比方法的最优性能结果为5折交叉验证的均值±标准差。表7 性能对比宏平均F1值%加粗值为各癌症数据集下所有对比方法的最优性能结果为5折交叉验证的均值±标准差。各组学数据在预测中的贡献表8 各组学数据类型的贡献本表报告MoJKNet在7种癌症数据集、不同组学组合下的宏平均精确率、宏平均召回率与宏平均F1值每行展示剔除首列组学类型后的模型性能用于评估单一组学的独立贡献最后1行为整合所有组学数据的结果。红色剔除单一组学后所有组合的最优性能蓝色剔除单一组学后所有组合的最差性能加粗整合所有组学模态的最优整体性能。消融实验表9 7种TCGA多组学癌症数据集上输入1分支的JK-Net与GCN宏平均精确率对比加粗值为完整模型或其变体在各评估设置下的最优性能结果为5折交叉验证的均值 ± 标准差。表10 7种TCGA多组学癌症数据集上输入2分支的JK-Net与GCN宏平均精确率对比加粗值为完整模型或其变体在各评估设置下的最优性能结果为5折交叉验证的均值±标准差。可视化图2 基于原始特征与MoJKNet嵌入的7种癌症数据集主成分分析PCA可视化每个数据集由1对子图呈现左图为原始特征分布右图为经MoJKNet表示学习后的嵌入分布具体对应(a,b)子宫内膜癌(UCEC)、(c,d)胃腺癌(STAD)、(e,f)肉瘤(SARC)、(g,h)结直肠癌(COADREAD)、(i,j)头颈部鳞状细胞癌(HNSC)、(k,l)低级别胶质瘤(LGG)、(m,n)浸润性乳腺癌(BRCA)横轴、纵轴分别为第1、第2主成分PC1、PC2样本按癌症亚型着色。MoJKNet嵌入的生存分析评估图3 基于MoJKNet嵌入与MO-GCAN嵌入的7种癌症数据集生存分析(a,c,e,g,i,k,m)为MoJKNet嵌入结果(b,d,f,h,j,l,n)为MO-GCAN嵌入结果卡普兰-迈耶KM曲线展示随访期内低风险组与高风险组患者占比风险分组依据模型预测的风险评分中位数划分。图4 TCGA癌症数据集上多组学整合模型的性能对比(a)宏平均精确率、(b)宏平均召回率、(c)宏平均F1值结果为4种模型MO-GCAN、MOGONET、MoGCN、本文MoJKNet经5折交叉验证的均值±标准差。详细总结思维导图TCGA七种癌症数据集样本与类别分布MoJKNet整体性能关键指标对比参考Front Genet. 2026 Apr 7:17:1803456. doi: 10.3389/fgene.2026.1803456.MoJKNet: a jumping knowledge graph framework for multi-omics cancer subtype prediction260407MoJKNet.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。