shibo体育游戏app平台要是您有优秀的使命想要分享-世博官方网站(官方)手机APP下载IOS/安卓/网页通用版入口
江中华shibo体育游戏app平台,浙江大学软件学院硕士生二年龄,导师为张圣宇敦厚。盘问宗旨为大小模子端云协同筹算。张圣宇,浙江大学平台「百东说念主规划」盘问员。盘问宗旨包括大小模子端云协同筹算,多媒体分析与数据挖掘。
跟着机器学习技巧的发展,阴私保护和分散式优化的需求日益增长。联邦学习看成一种分散式机器学习技巧,允好多个客户端在不分享数据的情况下协同放哨模子,从而有用地保护了用户阴私。关联词,每个客户端的数据可能各不相同,有的数据量大,有的数据量小;有的数据特征丰富,有的数据特征单一。这种数据的异质性和对抗衡性(Non-IID)会导致一个问题:腹地放哨的客户模子忽视了全局数据中清亮的更平凡的方式,团聚的全局模子可能无法准确响应通盘客户端的数据分散,致使可能出现「辛普森悖论」—— 多端各自数据分散趋势临近,但与多端全局数据分散趋势违犯。
伸开剩余90%为了处分这一问题,来自浙江大学东说念主工智能盘问所的盘问团队刻薄了 FedCFA,一个基于反事实学习的新式联邦学习框架。
FedCFA 引入了端侧反事实学习机制,通过在客户端腹地生成与全局平均数据对都的反事实样本,缓解端侧数据中存在的偏见,从而有用幸免模子学习到失实的特征 - 标签关联。该盘问已被 AAAI 2025 经受。
论文标题:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning 论文联络:https://arxiv.org/abs/2412.18904 技俩地址:https://github.com/hua-zi/FedCFA辛普森悖论
辛普森悖论(Simpson's Paradox)是一种统计神态。粗浅来说,当你把数据分红几个子组时,某些趋势或关系在每个子组中进展出一致的宗旨,但在通盘这个词数据鸠合却出现了各别的趋势。
图 1:辛普森悖论。在全局数据集上不雅察到的趋势在子集上消散 / 逆转,团聚的全局模子无法准确响应全局数据分散
在联邦学习中,辛普森悖论可能会导致全局模子无法准确捕捉到数据的确切分散。举例,某些客户端的数据中存在特定的特征 - 标签关联(如热诚与动物种类的关系),而这些关联可能在全局数据中并不存在。因此,告成将腹地模子集聚周详局模子可能会引入失实的学习效果,影响模子的准确性。
如图 2 所示。琢磨一个用于对猫和狗图像进行分类的联邦学习系统,触及具有不同数据集的两个客户端。客户端 i 的数据集主要包括白猫和黑狗的图像,客户端 j 的数据集包括浅灰色猫和棕色狗的图像。关于每个客户端而言,数据集揭示了雷同的趋势:淡色动物被归类为「猫」,而深色动物被归类为「狗」。这导致团聚的全局模子倾向于将热诚与类别标签关系联并为热诚特征分派更高的权重。关联词,全局数据分散引入了好多不同热诚的猫和狗的图像(举例黑猫和白狗),与团聚的全局模子相矛盾。在全局数据上放哨的模子不错很容易地发现动物热诚与特定分类无关,从而减少热诚特征的权重。
图 2:FedCFA 不错生成客户端腹地不存在的反事实样本,阻扰模子学习到不正确的特征 - 标签关联。
反事实学习
反事实(Counterfactual)就像是「要是事情发生了另一种情况,效果会如何?」 的假定性推理。在机器学习中,反事实学习通过生成与现实数据不同的诬捏样本,来探索不同条目下的模子行为。这些诬捏样本不错匡助模子更好地意会数据中的因果关系,幸免学习到虚伪的关联。
反事实学习的中枢念念想是通过对现存数据进行搅扰,生成新的样本,这些样本响应了某种假定条目下的情况。举例,在图像分类任务中,咱们不错改造图像中的某些特征(如热诚、体式等),生成与原图不同的反事实样本。通过让模子学习这些反事实样本,不错提高模子对确切数据分散的意会,幸免过拟合局部数据的特色。
反事实学习平凡愚弄于保举系统、医疗会诊、金融风险评估等限度。在联邦学习中,反事实学习不错匡助缓解辛普森悖论带来的问题,使全局模子更准确地响应全体数据的确切分散。
FedCFA 框架简介
为了处分联邦学习中的辛普森悖论问题,FedCFA 框架通过在客户端生成与全局平均数据对都的反事实样本,使得腹地数据分散更接近全局分散,从而有用幸免了失实的特征 - 标签关联。
如图 2 所示,通过反事实变换生成的反事实样本使局部模子概况准确掌执特征 - 标签关联,幸免局部数据分散与全局数据分散相矛盾,从而缓解模子团聚中的辛普森悖论。从技巧上讲,FedCFA 的反事实模块,聘请性地替换枢纽特征,将全局平均数据集成到腹地数据中,并构建用于模子学习的反事实正 / 负样本。具体来说,给定腹地数据,FedCFA 识别无关大局 / 不行或缺的特征因子,通过相应地替换这些特征来引申反事实调遣以获取正 / 负样本。通过对更接近全局数据分散的反事实样本进行对比学习,客户端腹地模子不错有用地学习全局数据分散。关联词,反事实调遣靠近着从数据中索求寥落可控特征的挑战。一个特征不错包含多种类型的信息,举例动物图像的一个像素不错捎带热诚和体式信息。为了提高反事实样本的质地,需要确保索求的特征因子只包含单一信息。因此,FedCFA 引入因子去关系亏损,告成刑事包袱因子之间的关系所有,以结束特征之间的解耦。
全局平均数据集的构建
反事实变换模块
图 3:FedCFA 中的腹地模子放哨历程
FedCFA 中的腹地模子放哨历程如图 3 所示。反事实变换模块的主要任务是在端侧生成与全局数据分散对都的反事实样本:
因子去关系亏损
合并像素可能包含多个数据特征。举例,在动物图像中,一个像素不错同期捎带热诚和外不雅信息。为了提高反事实样本的质地,FedCFA 引入了因子去关系(Factor Decorrelation, FDC)亏损,用于减少索求出的特征因子之间的关系性,确保每个特征因子只捎带单一信息。具体来说,FDC 亏损通过筹算每对特征之间的皮尔逊关系所有(Pearson Correlation Coefficient)来斟酌特征的关系性,并将其看成正则化项加入到总亏损函数中。
实验效果
实验继承两个目的:500 轮后的全局模子精度 和 达到宗旨精度所需的通讯轮数,来评估 FedCFA 的性能。
实验基于 MNIST 构建了一个具有辛普森悖论的数据集。具体来说,给 1 和 7 两类图像进行上色,并按热诚浅深分裂给 5 个客户端。每个客户端的数据中,数字 1 的热诚都比数字 7 的热诚深。随后预放哨一个准确率 96% 的 MLP 模子,看成联邦学习模子运转模子。让 FedCFA 与 FedAvg,FedMix 两个 baseline 看成对比,在该数据集上进行放哨。如图 5 所示,放哨过程中,FedAvg 和 FedMix 均受辛普森悖论的影响,全局模子准确率着落。而 FedCFA 通过反事实调遣,不错顽固数据中的虚伪的特征 - 标签关联,生成反事实样本使得腹地数据分散采集全局数据分散,模子准确率普及。
图 4: 具有辛普森悖论的数据集
图 5: 在辛普森悖论数据集上的全局模子 top-1 准确率
消融实验
图 6:因子去关系 (FDC) 亏损的消融实验shibo体育游戏app平台
发布于:北京市