阅读记录【arXiv2020】 Adaptive Personalized Federated Learning

Adaptive Personalized Federated Learning

论文地址: https://arxiv.org/abs/2003.13461

摘要

对联邦学习算法个性化程度的研究表明,只有最大化全局模型的性能才会限制局部模型的个性化能力。在本文中,我们提倡自适应个性化联合学习(APFL)算法,其中每个客户端将训练其本地模型,同时为全局模型做出贡献。我们推导出局部模型和全局模型混合的泛化界限,并找到最佳混合参数。我们还提出了一种有效通信的优化方法来协作学习个性化模型并分析其在平滑强凸和非凸设置中的收敛性。大量的实验证明了我们的个性化模式的有效性,以及已建立的泛化理论的正确性。

adaptive personalized federated learning (APFL)

1. Introduction

仅针对全局模型的准确性进行优化会导致本地客户的泛化能力较差。
根据这些观察结果,为了平衡与其他用户协作的好处和不同用户域之间统计异质性的缺点之间的权衡,本文提出了一种自适应个性化联邦学习(APFL)算法旨在为每个用户学习个性化模型,该模型是最佳局部模型和全局模型的混合。我们从理论上分析了个性化模型对局部分布的泛化能力,依赖于混合参数、局部和全局分布之间的差异以及局部和全局训练数据的数量。为了学习个性化模型,我们提出了一种有效通信的优化算法,该算法在学习过程中利用局部模型和全局模型之间的相关性来自适应地学习模型。如图 1 所示,通过逐步增加多样性,与 FedAvg 和 SCAFFOLD 学习的全局模型相比,所提出的算法找到的个性化模型表现出更好的泛化能力。我们用广泛证实的实验结果补充了我们的理论发现,这些实验结果证明了所提出的个性化模式相对于常用 FO 算法的全局和局部模型的优越性。

federated optimization(FO)

Organization

  • Section 2. relatework
  • Section 3. introduce the APFL & its generalization guarantees
  • Section 4. communication-effcient optimization problem
  • Section 5. convergence rate
  • Section 6. experimental
  • Section 7 & 8. discussion & future work

2. Relate work

联邦学习个性化方法主要分为三类: local fine-tuning. multi-task learning, contextualization

  • local fine-tuning: 每个客户端接收一个全局模型,并使用自己的局部收据和几个梯度下降步骤进行调整。(元学习、域适应、迁移学习)。
  • multi-task learning: 每个客户端的优化可以被视为一个新任务,或者根据某些特征对客户端聚类,将其作为相似任务
  • contextualization: 针对一个客户的不同环境设置个性化模型
  • personalization via model regularization: 模型正则化,通过规范全局模型和局部模型之间的差异来引入不同的个性化方法。(个性化的知识蒸馏)
  • personalization via model interpolation:模型插值

“什么程度的个性化最适合每个客户?” 本文自适应地调整每个客户端地个性化程度来回答这个问题。

PFL personalized fedrated learning

每个客户端都可以访问自己的数据分布Di,对于任何假设h,损失函数定义为l,局部分布的真实风险由 L D i ( h ) = E ( x , y ) ∼ D i [ l ( h ( x ) , y ) ] L_{D_i}(h)=E_{(x,y)\sim D_i}[l(h(x),y)] LDi(h)=E(x,y)Di[l(h(x),y)] 表示。由 L ^ D i ( h ) \hat L_{D_i}(h) L^Di(h)来表示h在分布D_i上的经验风险,用均值 D ˉ \bar{D} Dˉ 表示客户端的平均分布。
与联邦学习相同,全局模型通过训练以最小化相对于分布 D ˉ \bar{D} Dˉ 的经验损失,即 min ⁡ h ∈ H L ^ D ˉ ( h ) \min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) minhHL^Dˉ(h)

3.1 Personalized model

具有自适应权重的局部模型与全局模型相混合的联合预测模型——个性化模型。
对于全局模型,目标仍然是最小化经验风险。

h ˉ ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( h ) \bar{h}^\star =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) hˉ=arghHminL^Dˉ(h)

对于每个用户的本地模型,则是通过权重 α i \alpha_i αi聚合部分本地模型和部分全局模型,则本地模型的目标为

h ˉ l o c , i ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( α i h + ( 1 − α i ) h ˉ ⋆ ) \bar{h}^\star_{loc,i} =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(\alpha_i h+(1-\alpha_i)\bar{h}^\star) hˉloc,i=arghHminL^Dˉ(αih+(1αi)hˉ)

最后,第i个个性化模型是 h ˉ ⋆ \bar{h}^\star hˉ h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i的凸组合。

h α i = α i h ˉ l o c , i ⋆ + ( 1 − α i ) h ˉ ⋆ h_{\alpha_i}=\alpha_i \bar{h}^\star_{loc,i}+(1-\alpha_i)\bar{h}^\star hαi=αihˉloc,i+(1αi)hˉ

h α i h_{\alpha_i} hαi不一定是经验风险的最小化,因为是在部分合并全局模型的情况下优化了 h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i 。大多数情况下,如果在从D_i中提取的训练集上进行评估, h α i h_{\alpha_i} hαi将会产生residual risk

3.2 Generalization guarantees

二分类问题考虑squared hinge loss ‘ ( h ( x ) , y ) = ( m a x 0 , 1 − y h ( x ) ) 2 `(h(x), y) = (max{0, 1 − yh(x)})2 (h(x),y)=(max0,1yh(x))2

回归问题考虑 MSE loss ‘ ( h ( x ) , y ) = ( h ( x ) − y ) 2 `(h(x), y) = (h(x) − y)2 (h(x),y)=(h(x)y)2

定义1. 一对模型间最坏情况的分歧量化。该度量通过计算样本训练集上两个假设之间的最大分歧来衡量假设类的复杂性。(一种全局模型和局部模型泛化误差间的权衡)

在这里插入图片描述

定理1. 前文所提个性化方法的主要结果,由VC维来衡量。的数据量)。会导致全局模型有更好的泛化性,

在这里插入图片描述

泛化风险主要取决于下面三种

  • m(D中提取的数据量):相对于个人用户数量较大,全局模型通常由更好的泛化性。
  • D与D_i间的散度:平均分布与第i个分布的数据异质性,差异过大会导致全局模型损害局部泛化。
  • m_i(D_i提取的数据量):mi一般较小,局部模型的泛化可能很差。

因此应该选一个小的权重 α i \alpha_i αi来包含更多比例的全局模型。

最优最小参数
在这里插入图片描述

RHS (Right-Hand Side),右侧

4 Optimization Method

自动更新权重的自适应算法:将原本的模型分为两阶段优化问题,全局更新共享模型,本地更新用户本地模型。每个本地客户端要解决的问题为:

min ⁡ v ∈ R d f i ( α i v + ( 1 − α i ) w ⋆ ) \min_{\mathcal{v}\in R^d}f_i(\alpha_i v+(1-\alpha_i)w^\star) vRdminfi(αiv+(1αi)w)

其中 w ⋆ = arg ⁡ min ⁡ w F ( w ) w^\star=\arg\min_w F(w) w=argminwF(w) 为全局最优模型。这两个模型间的平衡由 α i \alpha_i αi 控制。

4.1 Local Descent APFL

双层优化算法Local Descent APFL。服务器随机选择一定的K个客户端作为一组U,每个选定的客户端维护三个模型:全局模型w,自己持有的本地模型v,和混合个性化模型v=alphav+(1-alpha)w,选定的客户端在本地对自己的数据更新w和v两个参数

在这里插入图片描述

在本地进行 τ \tau τ轮更新狗后,将各自本地的w发送到服务器,通过均值聚合。

4.2 Adaptive α \alpha α update

在这里插入图片描述
在这里插入图片描述

注意到 α \alpha α的值与个性化版本和本地版本全局模型的差异及设备内个性化模型的梯度间相关性进行更新的。这表明,当全局模型偏离个性化模型时,α值会发生变化,以调整全局模型捕获的所有设备之间的本地数据和共享知识之间的平衡。显然,当个性化模型和全局模型非常接近时(IID 数据),α 值不会发生太大变化。

5 Convergence Analysis

本节对固定 α \alpha α的APFL在强凸和非凸函数上的收敛性进行分析。

定义2:(梯度多样性) 参数化不变量,parameterization-invariant quantities
在这里插入图片描述

定义3:(本地-全局最优性差距)针对强凸,需要以下反应异质性的量
在这里插入图片描述

v和w取决于客户端之间本地数据的分布和loss的几何形状。

假设

在这里插入图片描述

5.1 强凸损失函数

假设

在这里插入图片描述

定理2:(局部下降 APFL 的全局模型收敛)

在这里插入图片描述

定理3:(Local Descent APFL 的个性化模型收敛)
在这里插入图片描述

推论1

在这里插入图片描述

定理4:(局部下降 APFL 的个性化模型收敛,无需假设 αi)
在这里插入图片描述

5.2 非凸损失函数

定义4:(梯度差异)
在这里插入图片描述

6 Experiments

6.1 Setup

  • 基本情况:Azure、PyTorch(with ‘distributed’)、F64s虚拟机、每个节点64个vCPU
  • Datasets:
    • MNIST:每个客户端2类,每个客户端4类,iid
    • CIFAR10:每个客户端2类
    • EMNIST
  • else(除非特殊说明):learning rate 每 iteration 降低1.本地更新10次

6.2 Results

  1. strongly convex loss(带有参数正则化的逻辑回归):不同学习率下的acc和loss对比,iid时fedavg性能更好,noniid时personalized更好。另外更大的学习率对noniid数据集有正面作用。
  2. 还比较了不同的sample ratio下的训练性能,越大性能越好
  3. 自适应 α \alpha α 相较于其它结果
  4. nonconvex loss:Cifar-10 vs FedAvg、SCAFFOLD
  5. Natural heterogeneous data: EMNIST vs FedAvg
  6. Comparison with other personalization methods: EMNIST vs FedAvg、PerAvg、pFedMe

7 讨论

  • 关于文本所提的适应性:当局部分布远离全局分布时,全局模型对本地模型更新帮助较小,因此改变自适应alpha的值,让本地模型的比例更大,可以更好得适应不同本地分布。
  • 面向新节点的个性化(seen task):
    • APFL vs MAML. APFL:不同用户间共享知识,以减少泛化误差;MAML:更关心如何构建元学习器,用更少的样本更快的训练本地个性化模型
    • 实验对比,在训练完全局模型后,增加的新节点上,APFL的性能比FedAvg更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/178874.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot前后端分离项目配置https接口(ssl证书)

文章目录 说明vue.js前端部署vue.js项目axios请求配置本地创建日志文件创建Dockerfile文件配置ssl证书nginx.confvue项目打包上传创建容器部署 后端springboot项目部署配置ssl证书打包部署 补充:jsk证书和pfx证书补充:两种证书的转化JKS转PFXPFX 转 JKS …

基于蛇优化算法优化概率神经网络PNN的分类预测 - 附代码

基于蛇优化算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于蛇优化算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于蛇优化优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神经网络…

docker报错standard init linux.go:228 exec user process caused: exec format error

1、报错 使用Dockerfile自己做的服务镜像,docker run时启动失败,报错如下: standard init linux.go:228 exec user process caused: exec format error2、原因一 当前服务器的CPU架构和构建镜像时的CPU架构不兼容。比如做镜像是在arm机器下…

图形数据库的实战应用:如何在 Neo4j 中有效管理复杂关系

关系数据库管理系统( RDBMS ) 代表了最先进的技术,这在一定程度上要归功于其由周边技术、工具和广泛的专业技能组成的完善的生态系统。 在这个涵盖信息技术(IT) 和运营技术(OT) 的技术革命时代,人们普遍认识到性能方面出现了重大挑战,特别是…

Elasticsearch:将最大内积引入 Lucene

作者:Benjamin Trent 目前,Lucene 限制 dot_product (点积) 只能在标准化向量上使用。 归一化迫使所有向量幅度等于一。 虽然在许多情况下这是可以接受的,但它可能会导致某些数据集的相关性问题。 一个典型的例子是 Cohere 构建的嵌入&#x…

CSS特效016:天窗扬起合上的效果

CSS常用示例100专栏目录 本专栏记录的是经常使用的CSS示例与技巧,主要包含CSS布局,CSS特效,CSS花边信息三部分内容。其中CSS布局主要是列出一些常用的CSS布局信息点,CSS特效主要是一些动画示例,CSS花边是描述了一些CSS…

计算3个点的6种分布在平面上的占比

假设平面的尺寸是6*6,用11的方式构造2,在用21的方式构造3 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 1 2 2 3 3 3 x 3 3 2 2 2 1 2 2 2 2 2 1 2 2 在平面上有一个点x,11的操作吧平面分成了3部分2a1,2a…

OCR是什么意思,有哪些好用的OCR识别软件?

1. 什么是OCR? OCR(Optical Character Recognition)是一种光学字符识别技术,它可以将印刷体文字转换为可编辑的电子文本。OCR技术通过扫描和分析图像中的文字,并将其转化为计算机可识别的文本格式,从而…

DataFunSummit:2023年OLAP引擎架构峰会-核心PPT资料下载

一、峰会简介 OLAP技术是当前大数据领域的热门方向,该领域在各个行业都有广泛的使用场景,对OLAP引擎的功能有丰富多样的需求。同时,在性能、稳定性和成本方面,也有诸多挑战。目前,OLAP技术没有形成统一的事实标准&…

使用SpringBoot集成MyBatis对管理员的查询操作

增删改查中的查询操作,对所有的普通管理员进行查询操作。 效果展示: 不仅可以在打开页面时进行对管理员的自动查询操作,还可以在输入框进行查询。 首先是前端向后端发送POST请求,后端接收到请求,如果是有参数传到后端…

Py之wikipedia-api:wikipedia-api的简介、安装、使用方法之详细攻略

Py之wikipedia-api:wikipedia-api的简介、安装、使用方法之详细攻略 目录 wikipedia-api的简介 wikipedia-api的安装 wikipedia-api的使用方法 1、 创建 Wikipedia并进行查询 wikipedia-api的简介 Wikipedia-API是一个易于使用的Python封装,用于访…

传统企业如何实现数字化转型?如何加快企业数字化转型?

科技的发展给社会带来了各种变革,技术日新月异,很多传统的东西都被大众抛之脑后,在这个以技术和数据运营为导向的数字化时代,传统企业想要保持足够的核心竞争力,就必须跟上时代的步伐,进行企业数字化转型&a…

使用PySpark 结合Apache SystemDS 进行信号处理分析 (离散傅立叶变换)的简单例子

文章大纲 简介 :什么是 SystemDS ?环境搭建与数据 准备数据预处理模型训练 与 结果评估参考文献简介 :什么是 SystemDS ? SystemDS is an open source ML system for the end-to-end data science lifecycle from data integration, cleaning, and feature engineering, ov…

语音识别入门——常用软件及python运用

工具以及使用到的库 ffmpegsoxaudacitypydubscipylibrosapyAudioAnalysisplotly 本文分为两个部分: P1:如何使用ffmpeg和sox处理音频文件 P2:如何编程处理音频文件并执行基本处理 P1 处理语音数据——命令行方式 格式转换 ffmpeg -i video…

HarmonyOS ArkTS Video组件的使用(七)

概述 在手机、平板或是智慧屏这些终端设备上,媒体功能可以算作是我们最常用的场景之一。无论是实现音频的播放、录制、采集,还是视频的播放、切换、循环,亦或是相机的预览、拍照等功能,媒体组件都是必不可少的。以视频功能为例&a…

java--飞翔的小鸟

游戏玩法:通过鼠标点击使小鸟上下移动穿过柱子并完成得分,小鸟碰到柱子或掉落到地面上都会结束游戏。 游戏内图片 Brid类: package bird;import org.omg.CORBA.IMP_LIMIT;import javax.imageio.ImageIO; import java.awt.image.BufferedIma…

时序预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost时间序列预测

时序预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost时间序列预测 目录 时序预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.Matlab实现BiLSTM-Adaboost…

【用unity实现100个游戏之16】Unity中程序化生成的2D地牢5(附项目源码,完结)

文章目录 最终效果前言生成墙壁优化方法一、使用rule tile方法二、使用代码生成墙壁补充最终效果后续参考源码完结最终效果 前言 本期是本项目最后一期,主要是进行墙壁的生成优化和补充一下剩下了的其他内容 生成墙壁优化 方法一、使用rule tile 我这里大概给个rule tile参…

前缀和——DP35 【模板】二维前缀和

文章目录 🍎1. 题目🍒2. 算法原理🍅3. 代码实现 🍎1. 题目 题目链接:【模板】二维前缀和_牛客题霸_牛客网 (nowcoder.com) 描述 给你一个 n 行 m 列的矩阵 A ,下标从1开始。 接下来有 q 次查询&#xff0…

Can‘t open the append-only file: Permission denied

redis rdb aof-CSDN博客 Cant open the append-only file: Permission denied E:\Document_Redis_Windows\redis-2.4.5-win32-win64\64bit E:\Document_Redis_Windows\redis-2.4.5-win32-win64\64bit\redis.conf 还是不行,就要修改权限了,windows【完全控…