【论文笔记 | 异步联邦】PORT:How Asynchronous can Federated Learning Be?

1. 论文信息

How Asynchronous can Federated Learning Be?2022 IEEE/ACM 30th International Symposium on Quality of Service (IWQoS). IEEE, 2022,不属于ccf认定

2. introduction

2.1. 背景:

现有的异步FL文献中设计的启发式方法都只反映设计空间中的点解决方案,并且在一些情况下未能激励他们的设计选择。大多数现有的工作使用 the number of gradients, updates, or communication rounds before convergence 作为性能指标,这无法反映收敛到目标精度所需的实际时钟时间

设计空间是所有可能的系统配置和参数选择的集合,包括但不限于:

  • 客户端的最小数量要求
  • 陈旧性界限
  • 聚合算法的设计
  • 客户端选择策略
  • 本地训练设置
  • 通信效率
  • 模型更新的同步性
  • 超参数调整

点解决方案是指只针对一个特定点(即特定的参数集合或配置)的解决方案

这是因为 每次更新或通信所花费的时间可能会大不相同 。因此,不能清楚在冲突的设计决策之间的最佳权衡是什么,以及在同步和异步机制之间的整个范围内的最佳点是什么

2.2. 挑战:

还没有人涉足,没有可以参照的先例;

实验设备计算能力的限制:同时训练的客户端数量存在非常严格的限制;

2.3. 解决的问题:

  1. 现有关于异步联邦学习的文献工作都是点解,提出的每个启发式算法只能代表多维设计空间中的一个操作点。现有作品中的设计选择和权衡,包括超参数设置,没有很好的动机,有效性主要是通过经验评估来说明的。
  2. 现有工作使用 梯度 、更新 或 收敛前的通信轮数 作为性能指标,导致无法反映收敛到目标精度所需的实际时钟时间

2.4. 贡献点:

  1. 在PORT中,server 集成了一种推拉机制:允许快速客户端积极地报告模型更新,并在客户端更新的数量到达总设备数量的最小百分比时进行聚合。在达到 staleness bound 后,server 不需要等待过时客户端,它会通过紧急通知积极地拉取这些陈旧的客户端,收到此类紧急通知的客户必须在完成当前训练阶段后立即报告。
  2. 受现有自适应聚合机制的启发,为模型更新更陈旧、更分散的客户端分配更低的聚合权值。这种设计背后的直觉是,过时的客户端基于全局模型的早期版本,因此它们的模型更新质量较低,相关性较低。
  3. PORT的设计基于对真实世界FL框架的一系列实验评估,与 state-of-the-art 相比,使用 wall-clock time ,而不是通信 round 数作为性能指标,使得结果可复现。由于异步范例天生就是为了最小化挂钟时间而设计的,因此这是评估竞争设计的唯一合适方法。(实验以及理论验证)通过各种数据集和模型,表明PORT能够在文献中超越其所有竞争对手,并且比文献中最接近的最先进的竞争对手高出40%。从理论上证明了该机制具有收敛性保证

3. 提出PORT前做实验验证多个因素:

3.1. 客户端的最小数量要求

服务器 聚合来自客户端的更新,需要的客户端的最小数量

3.2. 陈旧性界限

由过时同步并行机制(SSP)已知,如果在聚合过程中等待超过一定范围的过时客户端,可以保证收敛。然而,目前尚不清楚不同的过期界限将如何影响收敛所需的时间。直觉上不希望只等待那些差异不大的客户,但另一方面,也不希望容纳过于陈旧的客户端,(模型之间差异过大)

实验结果验证了直觉猜测,陈旧边界存在一个最佳点 10

3.3. 设计空间

应该是一个三维立体图,表示目前的一些算法只考虑一个或两个因素,不是最佳解法

4. 解决方法

4.1. PORT

PORT 寻求在异步联邦学习的设计空间的最佳区域中运行。

PORT 的设计目标是最小化FL训练的时钟时间以收敛到目标精度,而不是回合数。

PORT 的设计侧重于基于客户的样本百分比(如联邦平均)聚合客户识别代表客户陈旧的影响因素;一旦确定了失效客户端,PORT就会相应地降低失效客户端的聚合权重

过时因素:

干扰因素:

数学上,可以采用两种方法来量化两个向量之间的相似度或冲突程度:

  • 点积:计算两个向量的点积可以同时反映它们的大小和夹角。
  • 余弦相似度:计算两个向量的余弦相似度,它仅反映两个向量之间的夹角,而不考虑它们的规模。

聚合权重:

聚合公式:

注意:

之和为1

4.2. 推拉机制与紧急通知

4.3. 挑战问题怎么解决:

模拟 wall-clock time ,这个时间不是通过直观观测得来的,是通过推进时间进行计数模拟出来的(但是看的还不是太懂)

  • 服务器从优先队列中提取最快完成训练的客户端,并根据这些客户端的完成时间推进模拟墙钟时间
  • 但如果存在陈旧客户端,服务器可能会进一步推进时间,直到这些客户端的训练完成,以确保它们的更新也被考虑在内。

4.4. 性能保证(performance guarantee):理论分析,使用什么理论,怎么分析/解决

暂时没看

5. 效果:重点是实验设计,每一部分实验在验证论文中的什么结论

5.1. 超参数确定实验

总的来说,α = 3 和 β = 1 相对于其他值对提供了轻微的性能优势。

5.2. 消融实验

5.2.1. 没有紧急通知

5.2.2. 有紧急通知

由于测量训练时间的随机性,在PLATO中没有激活可重复性模式,PORT 和 FedBuff 等竞争对手之间的比较可能会因不同的数据集和运行而有所不同。然而,与 FedAsync (未能收敛)和 FedAvg 相比,PORT 在这两种数据集上的性能优势不言而喻

6. (备选)自己的思考

论文对你的启发,包括但不限于解决某个问题的技术、该论文方法的优缺点、实验设计、源码积累等。

备注:
1. 这篇很奇怪,让我印象比较深刻的是它利用 wall-clock time 替换 round 轮次,从FL 实验的衡量标准重点切入的

  1. 它不像其他算法类文章,没有给出伪代码
  2. 它本质还是等待一定数量的客户端更新再进行聚合,但是比较普适性的是,这个一定数量是占参与训练的设备百分比
  3. 有新的聚合方式,考虑了过时因素和干扰因素(余弦相似)
  4. 另外增加了推拉机制,server 发出指令后,客户端将本 epoch 训练完成后,不管客户端是否更新完毕都上传server
  5. 而且是我第一次接触到推进时间,通过计数模拟 wall-clock 时间

异步联邦需要解决的三个问题:

首先,服务器在开始聚合过程之前应该等待的客户机的最小百分比是多少?等待的客户机越多,通信机制就越同步。

第二,什么是过期界限?过时的界限越宽松,设计就越异步。

最后,当服务器聚合迄今为止接收到的模型更新时(这些更新本质上是基于不同的全局模型的),服务器应该如何将聚合权重分配给每个客户机


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/577612.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《2024年绿色发展报告》:算力与电力矛盾愈加突出!

2024年4月22日,第55个世界地球日,超聚变发布《2024年绿色发展报告》,向社会展示超聚变面对宏观形势变化、产业趋势变化,推进绿色发展、科技向绿的探索与实践成果。 2023年,算力产业发生了深刻变化。大模型带来AI算力需…

小程序中如何快速给分类添加商品

​快速在分类下面上传商品,并且能够设置商品顺序,关系到运营效率的高低。下面就具体介绍如何快速在某个分类下面设置商品。 一、在商品管理处,查询某个分类下面的商品。 进入小程序管理员后台->商品管理,点击分类输入框&…

从零开始利用MATLAB进行FPGA设计(五)详解双口RAM

创作于谱仪算法设计过程中的数字能谱生成模块设计。 往期回顾: 从零开始利用MATLAB进行FPGA设计(四)生成优化HDL代码 从零开始利用MATLAB进行FPGA设计(三)将Simulink模型转化为定点数据类型 目录 1.关于双口RAM …

大模型咨询培训老师叶梓:利用知识图谱和Llama-Index增强大模型应用

大模型(LLMs)在自然语言处理领域取得了显著成就,但它们有时会产生不准确或不一致的信息,这种现象被称为“幻觉”。为了提高LLMs的准确性和可靠性,可以借助外部知识源,如知识图谱。那么我们如何通过Llama-In…

Web前端开发之CSS_1

CSS选择器字体属性背景属性文本属性表格属性 1. CSS 1.1 CSS简介 CSS(Cascading Style Sheets)层叠样式表,又叫级联样式表,简称样式表。CSS文件后缀名为 .css 。CSS用于HTML文档中元素样式的定义。使用CSS可以让网页具有美观一致…

算法 || 二分查找

目录 二分查找 在排序数组中查找元素的第一个和最后一个位置 搜索插入位置 一个数组经过划分后具有二段性的都可以用二分查找 二分查找 704. 二分查找 - 力扣(LeetCode) ​ 暴力解法:直接遍历数组,找到 target 便返回下标&am…

【blog项目】layui与jquery冲突导致鼠标悬停事件失效、如何调用layui.use()作用域里的方法

blog项目前台展示——查询数据库中的文章类型并展示时出现的bug 1 正常演示 2 用jquery查询数据库并添加到页面后 3 相关代码 <script src"/static/jquery-2.1.4.js"></script> <script src"/static/layui/layui.js"></script> …

排序算法-计数排序

一、计数排序 这种排序算法 是利用数组下标来确定元素的正确位置的。 如果数组中有20个随机整数&#xff0c;取值范围为0~10&#xff0c;要求用最快的速度把这20个整数从小到大进行排序。 很大的情况下&#xff0c;它的性能甚至快过那些时间复杂度为O(nlogn&#xff09;的排序。…

使用PyCharm开发工具创建工程

一. 简介 前面文章实现了开发 python程序使用的 开发工具PyCharm&#xff0c;本文来学习使用 PyCharm开发工具创建一个 python工程。 二. 使用PyCharm开发工具创建工程 1. 首先&#xff0c;打开 PyCharm开发工具&#xff0c;打开 "New project" 选项&#xff1a; …

git如何查询回退之前的提交记录

git如何查询回退之前的提交记录 使用 git reflog 命令&#xff1a; 使用 git reflog 命令&#xff1a; git refloggit reflog 显示的是你的本地引用日志&#xff0c;它包含了所有HEAD指向变更的历史记录&#xff0c;即使那些已经被删除的提交也会出现在这里。当你误操作回退并…

一款可视化正则表达式工具

regex-vis是一款在线免费且可视化的正则表达式工具 界面图&#xff1a; 只能输入由26个英文字母组成的字符串 ^[A-Za-z]$ 只能输入数字 ^[0-9]*$测试错误 测试正确 快来感受一下叭 官方网址&#xff1a; Regex VisRegex visualizer & editor, make the regular expr…

Java根据模板动态生成Pdf(添加页码、文件加密、Spire免费版本10页之后无法显示问题、嵌入图片添加公章、转Base64)

Java根据模板动态生成Pdf&#xff1a;添加页码、文件加密、Spire免费版本10页之后无法显示问题、嵌入图片添加公章、转Base64 引言【Java根据模板动态生成Pdf资源地址】示例一&#xff1a;动态生成带页码的PDF报告示例二&#xff1a;加密PDF以保护敏感信息示例三&#xff1a;应…

设计模式——终止模式之两阶段终止模式

文章目录 1. 错误思路2. 两阶段终止模式2.1 利用 isInterrupted2.2 利用停止标记interrupt-打断park Two Phase Termination 在一个线程 T1 中如何“优雅”终止线程 T2&#xff1f;这里的【优雅】指的是给 T2 一个料理后事的机会。 1. 错误思路 使用线程对象的 stop() 方法停…

容器工作流

背景 目前某平台使用计算容器和解析容器&#xff0c;这两种容器目前通过rabbitmq消息来进行链接&#xff0c;形成容器工作流&#xff0c;使用容器工作流框架可以省去两个容器中间环节的控制&#xff0c;不需要再使用java代码对容器的操作&#xff0c;通过容器工作流框架即可控…

Docker常见问题排查思路与实战

Docker作为一种流行的容器化技术&#xff0c;已经在众多场景中得到广泛应用。然而&#xff0c;在使用过程中&#xff0c;我们难免会遇到各种问题。本文将介绍一些常见的Docker问题及其排查思路&#xff0c;并通过实战案例帮助大家更好地理解和应对这些挑战。 1. Docker容器启动…

OpenHarmony语言基础类库【@ohos.util.LinkedList (线性容器LinkedList)】

LinkedList底层通过双向链表实现&#xff0c;双向链表的每个节点都包含对前一个元素和后一个元素的引用。当需要查询元素时&#xff0c;可以从头遍历&#xff0c;也可以从尾部遍历&#xff0c;插入、删除效率高&#xff0c;查询效率低。LinkedList允许元素为null。 LinkedList…

数据库和表创建练习

一丶要求 1.创建一个数据库db_classes 2 创建一行表db_hero 3. 将四大名著中的常见人物插入这个英雄表 二丶创建db_classes一个数据库, 使用数据库默认的字符集 create database db_classes; 三丶创建一行表db_hero 1.先切换到我们创建的db_classes;数据库中 use db_class…

RabbitMQ中的交换机类型

交换机类型 可以看到&#xff0c;在订阅模型中&#xff0c;多了一个exchange角色&#xff0c;而且过程略有变化&#xff1a; Publisher&#xff1a;生产者&#xff0c;不再发送消息到队列中&#xff0c;而是发给交换机 Exchange&#xff1a;交换机&#xff0c;一方面&#xff…

03 后端入参校验:自定义注解实现

03 后端入参校验&#xff1a;自定义注解实现 一、前言二、实现1、新建Spring Boot项目2、引入依赖3、新建注解类4、新建校验器5、全局异常处理器6、编写Controller7、新建实体类8、启动并测试 一、前言 在 Java 后端开发中&#xff0c;为了实现入参校验&#xff0c;常常会使用…

【SpringCloud】CircuitBreaker断路器之Resilience4J快速入门

【SpringCloud】CircuitBreaker断路器之Resilience4J快速入门 文章目录 【SpringCloud】CircuitBreaker断路器之Resilience4J快速入门1. 概述2. 服务熔断服务降级(CircuitBreaker)2.1 案例说明2.1.1 基于计数的滑动窗口2.1.2 测试2.2.1 基于时间的滑动窗口2.2.2 测试 3. 隔离(B…