联邦学习中的数据异构
联邦学习中的数据异构又称数据异质性即常说的 Non-IID核心是指各客户端的本地数据分布与全局数据分布不一致、客户端之间数据分布存在显著差异是联邦学习区别于中心化训练的核心挑战。学术界通常将数据异构分为五大类其中标签分布异构、样本量异构、特征分布异构是研究和实际场景中最常见的三类也是你实验中会接触到的核心异构类型。一、标签分布异构Label Distribution Skew最经典、实验最常用的 Non-IID 类型也叫「先验分布偏移」。定义不同客户端的标签类别分布差异显著即标签的概率分布 ( P(y) ) 在客户端间不一致但给定标签下的特征分布 ( P(x|y) ) 保持一致。成因数据按标签天然聚集。比如不同科室的医院数据病种分布不同不同地区的电商数据商品类别偏好不同。典型实验设置病态 Non-IIDPathological Non-IID按标签硬划分比如 MNIST 中每个客户端只拥有 1~2 类数字样本是强异构的代表设置。Dirichlet 分布 Non-IID通过 Dirichlet(α) 分布为每个客户端采样标签占比α 越小异构性越强是目前顶会论文中最主流的定量异构设置。常见程度⭐⭐⭐⭐⭐学术研究中默认的「Non-IID」几乎都指标签分布异构现实场景中也广泛存在。对算法的影响会导致本地更新方向偏离全局最优造成模型漂移是 FedProx、SCAFFOLD 等算法主要针对的问题也是 Krum 这类「单选代表」式鲁棒算法失效的核心原因。二、样本量异构Quantity Skew现实场景必然存在的异构类型常和其他异构叠加出现。定义不同客户端持有的样本总数量差异巨大数据量呈现极不均衡的长尾分布。成因客户端的算力、使用频率、数据采集能力天然存在差异。比如活跃用户和低频用户的手机行为数据量差距悬殊三甲医院和社区医院的病例数量相差几个数量级。典型表现100 个客户端中前 10% 的客户端占有 80% 以上的总样本量。常见程度⭐⭐⭐⭐⭐真实联邦场景 100% 存在学术实验中常与标签分布异构叠加使用更贴近真实情况。对算法的影响FedAvg 默认按样本量加权聚合会导致数据量大的客户端主导全局模型小客户端的知识被淹没若改为等权聚合又会引入大量小客户端的噪声。三、特征分布异构Feature Distribution Skew跨域/跨设备场景最普遍的异构类型也叫「协变量偏移」。定义相同标签对应的特征空间分布不一致即 ( P(x|y) ) 在客户端间存在差异但标签的分布 ( P(y) ) 一致。成因数据采集环境、设备、采集主体不同。比如手写数字识别中不同人的书写风格、笔画粗细、纸张背景差异大计算机视觉任务中不同摄像头的光照、角度、分辨率参数不同医疗影像中不同厂商的 CT/MRI 设备成像对比度、噪声水平不同。常见程度⭐⭐⭐⭐跨机构、跨设备的联邦落地场景非常普遍纯分类算法验证实验中使用频率低于标签分布异构。对算法的影响模型在本地学到的特征模式无法通用到其他客户端全局模型泛化能力下降特征空间的偏移也会导致鲁棒聚合算法的距离度量失效。四、概念异构Concept Shift / Concept Drift更复杂、更难处理的异构类型相对少见。定义特征与标签之间的映射关系在客户端间存在差异即后验概率 ( P(y|x) ) 不同——相同的特征输入在不同客户端对应不同的标签含义。细分两类概念偏移Concept Shift空间维度的差异不同客户端的映射规则不同。比如同样的体温数值成人和儿童的「发烧」判定标准不同。概念漂移Concept Drift时间维度的差异同一客户端随时间推移特征-标签的映射发生变化。比如电商推荐中用户兴趣随季节、热点动态变化。常见程度⭐⭐仅在特定业务场景中出现属于高阶异构问题普通分类任务很少涉及。对算法的影响是最难处理的异构类型客户端本地的分类逻辑本身就存在冲突普通聚合算法会严重失效。五、混合异构现实场景中几乎不存在单一类型的异构绝大多数情况是标签分布异构 样本量异构 特征分布异构同时叠加这也是很多实验室效果优异的算法落地后表现大幅下降的核心原因。总结哪些最常见做实验/读论文标签分布异构是绝对主流提到「Non-IID」不加说明时默认指标签分布异构真实落地场景样本量异构是必然存在的基础异构通常和标签异构、特征异构共同出现