隐私保护和带宽有效的联邦学习:在医院死亡率预测中的应用-文章翻译

隐私保护和带宽有效的联邦学习:在医院死亡率预测中的应用

摘要

机器学习,特别是联邦机器学习,在医学研究和患者护理方面开辟了新的视角。尽管联邦机器学习在隐私方面比集中式机器学习有所改进,但它不提供可证明的隐私保证。此外,联邦机器学习在带宽消耗方面相当昂贵,因为它需要参与者节点定期交换大型更新。该文提出了一种带宽高效的隐私保护联邦学习,它提供了基于差异隐私的理论隐私保证。我们使用真实数据集(包含约一百万名患者的电子健康记录)对我们的住院死亡率预测方案进行了实验评估。我们的研究结果表明,强大且可证明的患者级隐私可以强制执行,但代价是预测准确性的中度损失。

1 引入

电子健康记录(EHR)是患者医疗信息的数字版本。EHR数据开辟了新的视角,特别是随着机器学习的发展。EHR数据可用于训练预测模型,以预测患者的医疗状况,并帮助医生开展适当的护理[18,36]。然而,医疗数据被视为敏感信息,如果发生任何泄漏,可能会对患者造成真实和严重的损害。例如,医疗数据可能被保险公司用来调整保险费,被银行用来拒绝贷款,或者被政客用来诋毁对手。因此,这类敏感数据的隐私必须得到保证,并且需要隐私保护预测模型。预测模型通常使用在集中数据集上训练的机器学习算法构建。当一个模型在多个数据集(例如由多家医院收集)上进行训练时,将所有数据集集中在一台服务器上会带来额外的(通常是不可接受的)隐私风险。为了缓解这个问题,联邦学习(FL)被提出作为一种新的学习协议。联合学习包括在提供数据的不同实体上分配学习过程:不是在单个服务器上聚合数据,而是由每个参与实体在本地执行培训,然后共享和聚合模型[27,38]。尽管联邦学习通过设计减轻了隐私风险,但最近的结果表明,一些攻击,如成员身份和属性推断攻击,仍然是可能的[29,33]。此外,完整的训练样本也可以完全从捕获的梯度中重建[43,44]。此外,由于参与的实体必须通过交换它们的模型更新进行协作,因此在培训阶段所需的带宽通常非常大,而且令人望而却步。

贡献。本文提出了一种带宽有效的隐私保护联邦学习方案,该方案提供了理论上的隐私保证。我们的方案保证了即使在高度不平衡的训练数据上也具有实用性的差异隐私。这是一个挑战,因为不平衡的数据增加了差异隐私所需的注入噪声,从而大大降低了模型质量。我们的解决方案依赖于梯度的极端量化,以降低通信成本,以及小批量的下采样,以减少差异隐私所需的噪声。我们使用真实的EHR数据(包含约一百万份患者记录)对我们的院内死亡率预测解决方案的性能进行了实验评估。我们的研究结果表明,患者层面的隐私可以被强制执行,但只会导致预测准确性的中度损失。

概述。我们在第2节中描述了背景。我们将在第3节介绍我们的隐私保护方案。我们在第4节中报告了真实世界数据的实验。最后,在第7节结束之前,我们将在第5节讨论相关工作。

2 背景

2.1联邦学习(FL-STANDARD)

在联邦学习[27,38]中,多方(客户机)在其训练数据的联合上构建了一个通用的机器学习模型,而无需彼此共享。在每轮培训中,一些客户机从参数服务器检索全局模型,根据自己的培训数据更新全局模型,并将更新后的模型发送回服务器。服务器聚合所有客户端的更新模型,以获得一个全局模型,该模型将在下一轮中重新分发给某些选定的方。
在这里插入图片描述

请注意,每个 D k D_k Dk可能由不同的分布(即非iid情况)生成,也就是说,任何客户端的本地数据集可能不能代表总体分布[27]。例如,当不是所有的输出类都在每个客户机的训练数据中表示时,就会发生这种情况。在Alg1中对神经网络的联合学习进行了总结。在后续中,假设每个客户机都使用相同的模型体系结构。
在这里插入图片描述
联合学习的动机有三个方面:首先,它旨在通过只共享模型更新而不是潜在的敏感培训数据来为每个参与者的培训数据提供机密性。其次,为了降低通信成本,客户机可以在将更新发送回服务器之前执行多个本地SGD迭代。第三,在每一轮中,只需要少数客户对通用模型进行本地培训,这进一步降低了沟通成本,使该方法对大量客户特别有吸引力。

然而,之前的一些研究表明,模型更新确实会泄露潜在的敏感信息[29,33]。因此,仅仅不共享训练数据本身不足以保证它们的机密性。

2.2 差分隐私

差分隐私允许一方私下发布关于数据集的信息:输入数据集的函数受到干扰,因此任何能够区分记录与数据集其余部分的信息都是有界的[17]。
在这里插入图片描述
从直观上讲,这就保证了,如果对手有A的输出,对于任何记录,无论它是否包含在A的输入中,都能得出几乎相同的结论(直到ϵ 为止,概率大于1−δ)。也就是说,对于任何一个记录所有者来说,隐私泄露不太可能是因为它参与了数据集。
在这里插入图片描述

高斯机制。有几种方法可以实现DP,包括高斯机制[17]。其中一个基本概念是函数的全局敏感性[17]。
在这里插入图片描述
事实上,高斯机制从一个由随机变量G()描述的多元球面(或各向同性)高斯分布中提取向量值,如果n在给定的上下文中是明确的,则省略n。

3 双向联合学习记录级隐私

3.1 FL-SIGN协议

在第2.1节中介绍的FL-STANDARD方案中,每个选定的客户端将其更新后的模型发送到中央服务器。如前所述,该方案在带宽和隐私方面有几个缺点。我们建议通过量化模型权重来限制这些缺点,如[9,21]所示。更具体地说,在新方案中(本文其余部分称为FL-SIGN),每个客户端只发送其参数更新向量中每个坐标值的符号。服务器取每个坐标的符号总和的符号,并使用固定的常数r(在实践中为10−3的顺序)缩小结果,以限制每个客户端的贡献并调整收敛性。这种缩放的聚合更新被添加到全局模型中。

更具体地说,FL-SIGN(见Alg.3)与标准联邦方案FL-standard(见Alg.1)的区别如下:
在这里插入图片描述
(2)服务器对每个客户端 k 发送的符号向量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/523397.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

对模型用check_urdf后缀为.urdf时显示的错误,如何解决?

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

python买铅笔 2024年3月青少年电子学会等级考试 中小学生python编程等级考试一级真题答案解析

目录 python买铅笔 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序代码 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python买铅笔 2024年3月 python编程等级考试级编程题 一、题目要求 1、编…

Redis 应用问题解决——缓存穿透、缓存击穿、缓存雪崩、分布式锁

缓存穿透 key对应的数据在数据源不存在,每次针对此key的请求从缓存获取不到,请求都会压到数据源,从而可能压垮数据源。比如用一个不存在的用户id获取用户信息,不论缓存还是数据库都没有,若黑客利用此漏洞进行攻击可能…

【精品整理】最新数据安全评估标准合集

最新数据安全评估标准合集,以下是资料的目录,共12份。如需下载,请前往星球查阅和获取:https://t.zsxq.com/18JrHhWtQ 1、网络安全标准实践指南 2、数据安全风险评估方法 3、个人信息安全影响评估指南 4、数据出境安全评估指南 5、…

计算机视觉入门:开启图像理解之旅

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向的学习指导…

物联网实战--驱动篇之(三)LoRa(sx1278)

目录 一、LoRa简介 二、sx1278模块 三、硬件抽象层 四、SX1278初始化 五、发送时间计算 六、发送模式 七、接收模式 八、总结 一、LoRa简介 LoRa在物联网传输领域有着举足轻重的地位,平时大家可能比较少听说,因为它主要还是在行业应用&#xff0…

Python第四次作业

周六: 1. 找出10000以内能被5或6整除,但不能被两者同时整除的数(函数) def find_number():for number in range(0,10000):if number % 5 0 or number % 6 0:if number % 5 ! number % 6:ls.append(number)print(ls)ls [] fin…

HTTP的介绍

一.什么是HTTP? Hyper Text Transfer Protocol,超文本传输协议,规定了浏览器和服务器之间数据传输的规则。 二.HTTP的特点 (1)基于TCP协议:面向连接,安全 (2)基于请求-响应模型的&…

windows上使用influx2.7学习

参考 官方文档:https://docs.influxdata.com/influxdb/v2/ 下载 需要下载两样东西:influxd.exe和influx.exe influxd:influx数据库的服务端。下载地址:https://dl.influxdata.com/influxdb/releases/influxdb2-2.7.5-windows.zipinflux:连…

中文分词源码阅读(jiedi)

文章目录 structure.p文件pd.read_excelenumerate思维导图核心源码jiedi.pytrain.py 总结 structure 点击左边的Structure按钮就如Structure界面。从Structure我们可以看出当前代码文件中有多少个全局变量、函数、类以及类中有多少个成员变量和成员函数。 其中V图标表示全局变…

chrome google浏览器添加插件扩展失败怎么办,无法从该网站添加应用、扩展程序和用户脚本确定,

无法从该网站添加应用、扩展程序和用户脚本确定 chrome google浏览器添加插件扩展失败怎么办,无法从该网站添加应用、扩展程序和用户脚本确定, 需要打开调试模式 chrome://extensions/

24考研-东南大学916经验贴

文章目录 一、个人情况二、初试备考经验1.政治 67,客观382.英语 60,客观大概40左右3.数学 136,客观应该满分4.专业课 数据结构计网 114小分不清楚 三、复试备考经验笔试:C面试复试流程 附一下成绩单: 一、个人情况 本…

【蓝桥杯嵌入式】Cubemx新建工程引脚配置与点亮LED

【蓝桥杯嵌入式】Cubemx新建工程引脚配置与点亮LED cubemx基础配置LED 引脚配置按键配置按键引脚配置定时器扫描配置 工程管理配置点亮LED程序设计keil配置与程序下载 参考博文1:STM32 | 利用STM32CubeMX初始化一个STM32工程 参考博文1:点亮LED灯&#x…

基于ARM内核的智能手环(day8)

心率模块 输入模拟量 MPU6050 IIC 接线引脚: 因为这两个模块官方都提供了详细的资料和源码,这里不再过多赘述 项目结果展示 待机页面 有开场动画 所有页面无操作20s自动返回待机页面 主页 展示时间和温度到达预定时间蜂鸣器响起,按键后关…

【御控物联】JavaScript JSON结构转换(14):对象To数组——规则属性重组

文章目录 一、JSON结构转换是什么?二、术语解释三、案例之《JSON对象 To JSON数组》四、代码实现五、在线转换工具六、技术资料 一、JSON结构转换是什么? JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换&#xff0…

【网站项目】校园订餐小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

【计算机网络】应用层——HTTPS协议详解

文章目录 1. HTTPS 协议简介2. 了解“加密”3. HTTPS 保证数据安全传输的三大机制3.1 引入对称加密3.2 引入非对称加密3.3 引入“SSL/TLS证书”(防止中间人攻击)3.4 HTTPS安全机制总结 📄前言: 前面的文章已经对 HTTP 协议 进行了…

亚洲运动用品与时尚展(北京,上海,南京,厦门)

亚洲运动用品与时尚展(北京,上海,南京,厦门) 主办单位:慕尼黑展览集团 承办单位:慕尼黑展览(上海)有限公司 Nanjing Sports Carnival 2024 亚洲运动用品与时尚展&…

你真的会写接口自动化测试断言吗?

你真的会写自动化测试断言吗? 在接口测试中,断言是一项非常重要的操作,它是用来校验接口返回结果是否符合预期的一种手段。一般来说,接口测试断言大致可以分为以下几类: 状态码断言:这是最基本也是最常用的…

POLY - Survival Melee Weapons

一个轻便、有趣且灵活的低多边形资源包,非常适合原型设计或添加到低多边形世界中。超过50种近战武器、刀、斧、棍棒、棍棒等。 此套餐非常适合第三人称或自上而下的观看。 除此之外,资产还包括开发生存游戏可能需要的任何细节。 整个包是以多边形风格创建的,可以与其他多边…