个性化联邦学习所面临的挑战:

个性化联邦学习所面临的挑战:

1、Federated Learning with Personalization Layers

Li等人(2019)最近发表的综述文章阐述了联邦学习系统面临的许多独特挑战。其中一个挑战是,不同客户端的有效数据分布可能在参与的设备之间(可能有数百万台)差异很大。这种统计异质性可能会损害机器学习训练算法在个性化、推荐、欺诈检测等应用中的性能,因为传统的机器学习训练算法是为可以严格控制数据分区的中央或分布式计算环境设计的。克服联邦学习中统计异质性的不良影响是一个活跃的研究领域,最近有几项研究(Chen et al., 2018;Smith等人,2017;Zhao et al., 2018;Sahu et al., 2018)。

在本文中,我们研究了个性化设置作为深度前馈神经网络联邦学习中统计异质性来源的影响个性化是ML的一个关键应用程序,因为从原始用户数据中捕获的用户偏好不同,所以个性化是可能的。在边缘设备属于用户的联邦设置中,这必然意味着用于个性化的数据在统计上是异构的。对于通过推荐实现个性化,ud din等人(2019)首次尝试将协同过滤扩展到联邦设置,Chen等人(2018)设计了一种用于联邦训练的元学习方法。虽然这些方法被证明在MovieLens 100k数据集上表现非常好(Harper and Konstan, 2015),但如何将它们扩展到深度神经网络模型或无法通过协同过滤解决的问题并不明显。我们是我相信,个性化联邦学习的正确方法是一个非常重要的问题,研究界在这个问题上才刚刚触及表面。特别是,挑战来自多个方面,包括但不限于:

(1)许多个性化任务,如个性化图像美学(Ren et al., 2017)和个性化高光检测(Garcia del Molino and Gygli, 2018)在数据中没有明确的用户特征,需要在训练过程中提取这些特征。因此,相同的输入数据可以从不同的用户接收不同的标签,这意味着个性化模型必须在不同的用户之间有所不同,以便能够预测相似测试数据的不同标签。这已经超出了标准联邦学习的范围(McMahan等人,2017),后者学习一个全局模型,并在每个客户端本地有效地复制它。

(2)每个用户的训练样本数量不足以单独训练单个ML模型。因此,需要一些沟通和协作来利用人群的智慧。然而,协同过滤算法可能不适用,因为它们需要不同用户评价的项目之间有相当大的重叠。根据Ren et al. (2017);Garcia del Molino和Gygli(2018),在个性化图像美学和个性化高光检测等任务的典型数据集中,充分重叠条件不成立。

  1. 我们建议通过将深度学习模型视为基础层+个性化层来捕获联邦学习中的个性化方面,如图1所示。我们的训练算法包括通过联邦平均(或其变体)训练的基础层和仅通过随机梯度下降(或其变体)从局部数据训练的个性化层。我们证明了不受联邦平均(FEDAvG)过程影响的个性化层可以帮助对抗统计异质性的不良影响。
  2. 所有用户设备共享一组具有相同权重(蓝色)的基础层,并具有不同的个性化层,可以潜在地适应个人数据。基础层与参数服务器共享,而个性化层则由每个设备保持私有。

2、Federated Continual Learning with Weighted Inter-client Transfer

由于单个客户机上的数据隐私和高昂的通信成本,可能无法在客户机之间或服务器与客户机之间直接通信数据。联邦学习(McMahan et al., 2016;Li et al., 2018;YurochkinEt al., 2019)是一种学习范式,通过传递参数而不是原始数据本身来解决这个问题。我们可能有一个服务器,它接收在多个客户端本地训练的参数,将其聚合为单个模型参数,并将其发送回客户端。在我们从间接经验中学习的直觉的激励下,我们解决了联邦持续学习(FCL)的问题,其中我们使用在私有任务序列上训练的多个客户端执行持续学习,这些客户端通过全局服务器通信它们的任务特定参数。

然而,联合持续学习的问题也带来了新的挑战。首先,持续学习不仅会带来灾难性的遗忘,还会带来来自其他客户潜在干扰的威胁。图2用一个简单实验的结果描述了这个挑战。在这里,我们训练一个用于MNIST数字识别的模型,同时与在不同数据集上训练的另一个客户端通信参数。当从另一个客户端转移的知识与目标任务(SVHN)相关时,模型开始时精度高,收敛速度快,达到更高的精度(绿线),而如果转移的知识来自与目标任务高度不同的任务(CIFAR-10,红线),则模型的性能低于基本模型。因此,我们需要有选择地利用来自其他客户的知识,以尽量减少客户间的干扰,最大限度地提高客户间的知识转移。联邦学习的另一个问题是有效的通信,因为通信成本可能会变得过大利用其他客户端的知识,因为在使用边缘设备时,通信成本可能是实际场景中的主要瓶颈。因此,我们希望知识的表示尽可能紧凑。

图2 联邦持续学习的挑战。其他客户由于分享不相关的知识而产生的干扰可能会阻碍目标客户的最佳培训(红色),而来自其他客户的相关知识将有利于目标客户的学习(绿色)。

为了解决这些挑战,我们提出了一个新的联邦持续学习框架,联邦加权客户端间传输(fe户口),它将局部模型参数分解为密集的基本参数和稀疏的任务自适应参数。FedWeIT减少了不同任务之间的干扰,因为基本参数将编码任务通用知识,而任务特定知识将编码到任务自适应参数中。当我们利用通用知识时,我们还希望客户端有选择地利用从其他客户端获得的特定于任务的知识。为此,我们允许每个模型采用从服务器广播的任务自适应参数的加权组合,这样它就可以选择对手头任务有用的特定于任务的知识。FedWeIT是通信高效的,因为任务自适应参数是高度稀疏的,并且在创建时只需要通信一次。此外,当沟通效率不是跨筒仓联邦学习中的关键问题时(Kairouz等人,2019),我们可以使用我们的框架根据其任务自适应参数的注意力权重来激励每个客户端。我们在多个不同的场景中验证了我们的方法,这些场景在不同的客户端之间具有不同程度的任务相似度,并针对各种联邦学习和本地持续学习模型进行了验证。结果表明,我们的模型在所有基线上都获得了明显更好的性能,更快地适应新任务,并且大大降低了通信成本。本文的主要贡献如下:

  1. 本文提出了联邦持续学习(FCL)的新问题,即多个模型在分布式客户端上持续学习,这对防止客户端间干扰和客户端间知识转移提出了新的挑战。
  2. 我们提出了一种新颖且通信高效的联邦持续学习框架,该框架允许每个客户端通过通信稀疏参数自适应更新联邦参数并有选择地利用来自其他客户端的过去知识。

3、基于SK注意力机制的个性化联邦学习方法

虽然McMahan[4]等人提出的FedAvg算法在非独立同分布数据下也取得了良好的准l确率, Zhao[5]等人在CIFAR-10数据集上,利用FedAvg训练的卷积神经网络模型的准确率比传统集中式训练的模型准确率低51%,这可以通过各参与者模型参数的推土距离(EarthMover's Distance,EMD)来量化,且这个距离与参数者数据分布的情况有关。Duan[6]等人提出Astraea联邦学习框架,以改善由于参与者数据类别不均衡而导致模型精度下降的问题。在训练开始之前,框架结合客户端的数据分布,采用旋转和移动操作来增强类别较少的数据。另外,所述方法还通过协调器执行模型聚合步骤,协调器将趋向于选择数据分布较为均匀的客户端参加训练。但是,当参与者大多是边缘设备时,这一数据增强思路通常很难实现。

Li等人在FedAvg的目标函数中引入了近端项,提出了FedProx[7]算法,该算法在数据异质的情况下,限制了本地训练时模型对全局模型的偏离。Arivazhaga等人主张将一个深1度神经网络分成基础层和个性化层,提出FedPer[8],其中基础层是协同学习的,而个性化层是针对每个用户的。Hanzely[9]等人采用来自多个用户的本地模型和一个全局模型结合1的方案,从而克服了单一模型的局限性,使更多的数据可以用于训练,从而提高模型的准确度。Jiang[10]等人引入了MAML(Model-Agnostic Meta-Learning)技术,将MAML中的元训练步骤映射到FL全局模型训练过程中,将元测试步骤映射到FL个性化模型训练过程中,从而改善联邦学习的个性化能力,提高模型的准确性,并且可以有效地减少训练新任务所需的时间和资源。Li等人提出使用迁移学习和知识蒸馏开发一个联邦学习框架FedMD[11],此框架允许不同的客户端根据其计算能力设计不同的网络结构,在FL训练和知识蒸馏1阶段之前,首先使用一个在公共数据集上预训练的模型进行迁移学习。然后,每个客户在其私人数据上微调该模型。Fallah[12]等人提出了Per-FedAvg,利用元学习为所有用户学习一个共同的初始化模型,然后利用梯度下降法来适应每个用户的数据分布。另一种方法, pFedMe[13],通过Moreau envelope函数,将个性化模型优化从全局模型学习中分解出来,使得pFedMe可以像FedAvg一样更新全局模型,同时又可以根据每个客户端的本地数据分布,并行优化个性化模型,从而提高模型性能。Smith[14]等人将多任务学习引入联邦学习,提出MOCHA算法,其允许本地训练模型仅在结构上保持相同,并使用交替优化算法[15]来求解最优值。

[4] McMahan B,Moore E,Ramage D,et al. Communicationefficient learning of deep networks from decentralized data[C]//Artificial intelligence and statistics. PMLR,2017:1273-1282.

[5] Zhao Y,Li M,Lai L,et al. Federated learning with noniid data[J]. arXiv preprint arXiv:1806.00582,2018.

[6] Duan M,Liu D,Chen X,et al. Astraea:Self-balancing federated learning for improving classification accuracy of mobile deep learning applications[C]//2l 019 IEEE 37th international conference on computer design(ICCD). IEEE,2019:246-254.

[7] Li T,Sahu A K,Zaheer M,et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine learning and systems,2020(2):429-450.

[8] Arivazhagan M G,Aggarwal V,Singh A K,et al.Federated learning with personalization layers[J]. arXiv preprint arXiv:1912.00818,2019.

[9] Hanzely F,Richtárik P. Federated learning of a mixture of global and local models[J]. arXiv preprint arXiv:2002.05516,2020.

[10] Jiang Y,KonečnýJ,Rush K,et al. Improving federated learning personalization via model agnostic meta learning[J].arXiv preprint arXiv:1909.12488,2019.

[11] Li D,Wang J. Fedmd:Heterogenous federated learning via model distillation[J]. arXiv preprint arXiv:1910.03581,2019.

[12] Fallah A, Mokhtari A, Ozdaglar A. Personalized federated learning:A meta-learning approach[J]. arXiv preprint arXiv:2002.07948,2020.l

[13] T Dinh C,Tran N,Nguyen J. Personalized federated learning with moreau envelopes[J]. Advances in Neural Information Processing Systems,2020(33):21394-21405.

[14] Smith V,Chiang C K,Sanjabi M,et al. Federated multitask learning[J]. Advances in neural information processing systems,2017:30.

[15] Bezdek J, Hathaway R. Some notes on alternating optimization[J]. Advances in Soft Computing-AFSS 2002,2002:187-195.

4、联邦学习个性化算法的性能优化研究

传统的联邦学习希望在服务器端训练出一个具有泛化性能的全局模型。但由于客户端间数据的非独立同分布(Non-IID)问题,单一全局模型存在收敛困难或在客户端上表现不佳等问题。为了缓解 Non-IID问题的影响,个性化联邦学习的概念被提出,其旨在为不同的客户端提供个性化模型。但综合现有研究,大多数个性化联邦学习算法普遍存在着性能提升有限、训练步骤复杂或者通讯成本过高等问题。更为关键的是,模型的个性化性能与泛化性能是相互排斥的,即个性化联邦学习与传统联邦学习的目标互不兼容,这大大限制了个性化联邦学习的发展前景和研究价值。

联邦学习梯度:

不幸的是,移动处理能力的巨大差异性尚未得到解决。更糟糕的是,用户数据之间的高方差增加了另一层统计异质性[12],并使参与者的选择成为一个不平凡的问题。不适当的选择会不利地导致梯度发散并削弱减少计算时间的一切努力。通过实证研究,我们首先验证瓶颈实际上已经从通信转移回消费者移动设备上的计算。运行时行为取决于特定于供应商的软件实现和底层硬件架构的复杂组合,即片上系统(SoC)电源管理策略和输入计算强度

1、Picking winning tickets before training by preserving gradient flow

过度参数化有利于神经网络的优化和遗传,但大型网络在训练和测试时都需要大量资源。

2、隐私保护的分布式学习算法研究

此外,为了区分良性参与者和恶意参与者,大部分现有的防御方法[48,111,113-116]要求参与者以明文形式上传模型更新,这不可避免地带来了隐私泄露的风险。尽管联邦学 习避免了原始训练数据的直接披露,但最近的研究[54-57,64]表明,直接传输模型更新仍然 可能泄露参与者的敏感信息。例如,文献 [64] 用多个实例表明一小部分的模型梯度就 能泄露有用的数据信息。文献 [57] 提出了一种基于模型梯度的数据重构方法,能够根据深度神经网络的梯度重建出高分辨率的图像数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/356765.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AJAX的原理(重点)

◆ XMLHttpRequest 什么是XMLHttpRequest? 定义: 关系:axios 内部采用 XMLHttpRequest 与服务器交互 注意:直白点说就是axios内部就是封装了XMLHttpRequest这个对象来实现发送异步请求的 使用 XMLHttpRequest 步骤&#xff1a…

Edge浏览器进入csdn的网址出现“你的连接不是专用连接”错误

文章目录 问题描述解决方案 问题描述 Edge浏览器出现无法打开网页,出现:你的连接不是专用连接 错误。 解决方案 很有可能是DNS的问题,进入浏览器的设置页面,通过以下方式选择合适的的DNS即可 2024-1-29更新: 其他备用…

Linux true/false区分

bash的数值代表和其它代表相反:0表示true;非0代表false。 #!/bin/sh PIDFILE"pid"# truenginx进程运行 falsenginx进程未运行 checkRunning(){# -f true表示普通文件if [ -f "$PIDFILE" ]; then# -z 字符串长度为0trueif [ -z &qu…

Tensorflow2.0笔记 - tensor的padding和tile

本笔记记录tensor的填充和tile操作,对应tf.pad和tf.tile import tensorflow as tf import numpy as nptf.__version__#pad做填充 # tf.pad( tensor,paddings, modeCONSTANT,nameNone) #1维tensor填充 tensor tf.random.uniform([5], maxval10, dtypetf.int32) pri…

compose部署nginx

下拉Nginx镜像: docker pull nginx docker run -itd \ -p 80:80 \ --name n1 \ -v /root/soft/nginx/html:/usr/share/nginx/html \ (自己的文件路径) -v /root/nginx/conf.d/default.conf/:/etc/nginx/conf.d/default.conf \ (文…

SQL注入-sqli-labs-master第一关

实验环境: Nginx.1.15.11 MySQL:5.7.26 实验步骤: 1.第一步: 在id1后加入一个闭合符号,如果报错,再在后面加上 -- 将后面注释掉,如果不报错,则证明为字符型。 http://127.0.0.1/…

jvm优化过程

1.top命令执行查看,当前占比比较高的进程,可以看到21660这个进程的cpu占比已经100%了 编辑 2.可以定位到那个微服务的进程,可以看到是fs服务 编辑 3.执行 top -p 21660,然后按下大写的H,可以看到21772这个线程占比最高 编辑 4.…

标准库中的string类(下)——“C++”

各位CSDN的uu们你们好呀,这段时间小雅兰的内容仍然是Cstring类的使用的内容,下面,让我们进入string类的世界吧!!! string类的常用接口说明 string - C Reference string类的常用接口说明 string类对象的修…

【leetcode】01背包总结

01 背包 关键点 容器容量固定每件物品只有两种状态:不选、选 1 件求最大价值 代码 int N, W; // N件物品,容量为W int w[N], v[N]; // w为大小,v为容量/* 数组定义 */ int[][] dp new int[N][W 1]; // 注意是W 1, 因为重量会取到W dp[…

C++(6) 继承

文章目录 继承1. 继承1.1 什么是继承1.2 C 继承方式1.2.1 基本案例1.2.2 继承权限组合1.2.3 继承中构造函数的说法1.2.4 继承中析构函数的执行顺序1.2.5 继承中变量名称冲突问题1.2.6 继承中函数【重写】 继承 1. 继承 1.1 什么是继承 面向对象程序设计中最重要的一个概念是继…

C语言——指针进阶(四)

目录 一.前言 二.指针和数组笔试题解析 2.1 二维数组 2.2 指针笔试题 三.全部代码 四.结语 一.前言 本文我们将迎来指针的结尾,包含了二维数组与指针的试题解析。码字不易,希望大家多多支持我呀!(三连+关注&…

网络基础二 session、cookie、token

HTTP协议以明文方式发送内容,不提供任何方式的数据加密,如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息,因此,HTTP协议不适合传输一些敏感信息,比如:信用卡号、…

正则表达式 文本三剑客

一 正则表达式: 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用…

Log4j2的Appenders配置详解

官方配置文档 https://logging.apache.org/log4j/2.x/manual/appenders.html#RollingFileAppender <Appenders> 常使用的类如下&#xff1a; org.apache.log4j.ConsoleAppender&#xff08;控制台&#xff09; org.apache.log4j.FileAppender&#xff08;文件&#xff…

【Go-zero】手把手带你在goland中创建api文件并设置高亮

【Go-zero】手把手带你在goland中创建api文件并设置高亮 大家好 我是寸铁&#x1f44a; 总结了一篇手把手带你在goland中创建api文件并设置高亮解决方案的文章✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 问题复盘 在使用go-zero 框架时&#xff0c;常常需要用到goctl 一键生成…

Netty源码二:服务端创建NioEventLoopGroup

示例 还是拿之前启动源码的示例&#xff0c;来分析NioEventLoopGroup源码 NioEventLoopGroup构造函数 这里能看到会调到父类的MultiThread EventLoopGroup的构造方法 MultiThreadEventLoopGroup 这里我们能看到&#xff0c;如果传入的线程数目为0&#xff0c;那么就会设置2倍…

Vue2 props组件通信-父子组件传值

一、父组件向子组件传值 1、流程图 2、父组件代码 <template><div class"app"><UserInfo:usernameusername:ageage:isSingleisSingle:carcar:hobbyhobby></UserInfo></div> </template><script> import UserInfo from .…

汽车网络安全管理体系框架与评价-汽车网络安全管理体系框架

R155《网络安全与网络安全管理系统》法规中明确指出 &#xff0c; 汽车制造商应完成 “汽车网络安全管理体系认证” &#xff08;简称&#xff1a; CSMS认证&#xff09;以及 “车辆型式审批&#xff02; 且CSMS认证&#xff0c;是车辆型式审批的前提条件。 虽然我国相关政策尚…

【网络基础】IP

IP协议报头 4位版本号(version): 指定IP协议的版本, 对于IPv4来说, 就是4.4位头部长度(header length): IP头部的长度是多少个32bit, 也就是 length * 4 的字节数. 4bit表示最大的数字是15, 因此IP头部最大长度是60字节. 8位服务类型(Type Of Service): 3位优先权字段(已经弃用…

C++笔记之作用域解析符::和命名空间、作用域的关系

C++笔记之作用域解析符::和命名空间、作用域的关系 —— 杭州 2024-01-26 code review 文章目录 C++笔记之作用域解析符::和命名空间、作用域的关系1.`命名空间`和`作用域`两个术语的联系和区别命名空间(Namespace)作用域(Scope)联系与区别2.`作用域解析符::`和`命名空间`…