联邦学习中的数据异构

张

张建站

2026/6/26 1:22:25

10分钟阅读

联邦学习中的数据异构又称数据异质性即常说的 Non-IID核心是指各客户端的本地数据分布与全局数据分布不一致、客户端之间数据分布存在显著差异是联邦学习区别于中心化训练的核心挑战。学术界通常将数据异构分为五大类其中标签分布异构、样本量异构、特征分布异构是研究和实际场景中最常见的三类也是你实验中会接触到的核心异构类型。一、标签分布异构Label Distribution Skew最经典、实验最常用的 Non-IID 类型也叫「先验分布偏移」。定义不同客户端的标签类别分布差异显著即标签的概率分布 ( P(y) ) 在客户端间不一致但给定标签下的特征分布 ( P(x|y) ) 保持一致。成因数据按标签天然聚集。比如不同科室的医院数据病种分布不同不同地区的电商数据商品类别偏好不同。典型实验设置病态 Non-IIDPathological Non-IID按标签硬划分比如 MNIST 中每个客户端只拥有 1~2 类数字样本是强异构的代表设置。Dirichlet 分布 Non-IID通过 Dirichlet(α) 分布为每个客户端采样标签占比α 越小异构性越强是目前顶会论文中最主流的定量异构设置。常见程度⭐⭐⭐⭐⭐学术研究中默认的「Non-IID」几乎都指标签分布异构现实场景中也广泛存在。对算法的影响会导致本地更新方向偏离全局最优造成模型漂移是 FedProx、SCAFFOLD 等算法主要针对的问题也是 Krum 这类「单选代表」式鲁棒算法失效的核心原因。二、样本量异构Quantity Skew现实场景必然存在的异构类型常和其他异构叠加出现。定义不同客户端持有的样本总数量差异巨大数据量呈现极不均衡的长尾分布。成因客户端的算力、使用频率、数据采集能力天然存在差异。比如活跃用户和低频用户的手机行为数据量差距悬殊三甲医院和社区医院的病例数量相差几个数量级。典型表现100 个客户端中前 10% 的客户端占有 80% 以上的总样本量。常见程度⭐⭐⭐⭐⭐真实联邦场景 100% 存在学术实验中常与标签分布异构叠加使用更贴近真实情况。对算法的影响FedAvg 默认按样本量加权聚合会导致数据量大的客户端主导全局模型小客户端的知识被淹没若改为等权聚合又会引入大量小客户端的噪声。三、特征分布异构Feature Distribution Skew跨域/跨设备场景最普遍的异构类型也叫「协变量偏移」。定义相同标签对应的特征空间分布不一致即 ( P(x|y) ) 在客户端间存在差异但标签的分布 ( P(y) ) 一致。成因数据采集环境、设备、采集主体不同。比如手写数字识别中不同人的书写风格、笔画粗细、纸张背景差异大计算机视觉任务中不同摄像头的光照、角度、分辨率参数不同医疗影像中不同厂商的 CT/MRI 设备成像对比度、噪声水平不同。常见程度⭐⭐⭐⭐跨机构、跨设备的联邦落地场景非常普遍纯分类算法验证实验中使用频率低于标签分布异构。对算法的影响模型在本地学到的特征模式无法通用到其他客户端全局模型泛化能力下降特征空间的偏移也会导致鲁棒聚合算法的距离度量失效。四、概念异构Concept Shift / Concept Drift更复杂、更难处理的异构类型相对少见。定义特征与标签之间的映射关系在客户端间存在差异即后验概率 ( P(y|x) ) 不同——相同的特征输入在不同客户端对应不同的标签含义。细分两类概念偏移Concept Shift空间维度的差异不同客户端的映射规则不同。比如同样的体温数值成人和儿童的「发烧」判定标准不同。概念漂移Concept Drift时间维度的差异同一客户端随时间推移特征-标签的映射发生变化。比如电商推荐中用户兴趣随季节、热点动态变化。常见程度⭐⭐仅在特定业务场景中出现属于高阶异构问题普通分类任务很少涉及。对算法的影响是最难处理的异构类型客户端本地的分类逻辑本身就存在冲突普通聚合算法会严重失效。五、混合异构现实场景中几乎不存在单一类型的异构绝大多数情况是标签分布异构样本量异构特征分布异构同时叠加这也是很多实验室效果优异的算法落地后表现大幅下降的核心原因。总结哪些最常见做实验/读论文标签分布异构是绝对主流提到「Non-IID」不加说明时默认指标签分布异构真实落地场景样本量异构是必然存在的基础异构通常和标签异构、特征异构共同出现

课堂笔记写不完不会整理？2026如何快速整理课堂笔记哪个好怎么选

针对“课堂笔记写不完不会整理，2026如何快速整理课堂笔记哪个好怎么选”这个问题，直接给核心结论：选工具优先看三个标准，一是课堂录音转写准确率够不够，二是整理完能不能直接辅助复习记忆，三是能不能适配论…...

2026/6/26 1:20:48 阅读更多 →

千问新用户专属878554 无门槛8元通用立减券领取到了！

新人专享8元优惠券，下载千问APP注册即可领取，输入口令"千问新用户专属878554"一键到账，外卖打车网购都能直接抵扣，14天内有效速来使用！错过了过年期间的25元免单卡活动？别遗憾！通义千…...

2026/6/26 1:19:31 阅读更多 →

Qt PDF阅读器-水印功能

1. 功能简介水印功能用于在阅读器中为文档页面叠加文字水印。用户可以在阅读文档时开启水印预览，调整水印文字、字号、透明度、间距和角度；对于普通 PDF 文档，可以将当前水印写回到 PDF 文件中。该功能同时承担加密文档访问标识能力。加密…...

2026/6/26 1:18:05 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/24 22:21:16 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/24 12:43:56 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/25 0:40:48 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/24 12:44:02 阅读更多 →