【隐私计算大模型】联邦深度学习之拆分学习Split learning原理及安全风险、应对措施以及在大模型联合训练中的应用案例

Tips:在两方场景下,设计的安全算法,如果存在信息不对等性,那么信息获得更多的一方可以有概率对另一方实施安全性攻击。

1. 拆分学习原理   

        本文介绍了一种适用于隐私计算场景的深度学习实现方案——拆分学习,又称分割学习(Split Learning)【1, 2, 3】。该方法能够让服务器在无需访问客户端原始数据的前提下完成深度学习模型的训练或推理。通过拆分学习,合作的各方无需共享任何原始数据或模型详细信息,即可协同完成机器学习模型的训练或推断。

        在拆分学习的基础配置中,每个客户端仅负责将深度网络的前几层训练至一个预定义的切割层。切割层的输出结果被传送到另一个实体(如服务器或其他客户端),由其完成剩余网络的训练,而无需访问任何客户端的原始数据。这样便完成了一次前向传播,而无需共享原始数据。随后,在反向传播阶段,梯度从网络的最后一层逐层传回至切割层,切割层的梯度(仅此部分梯度)再返回给客户端。客户端利用这些梯度完成剩余的反向传播操作。通过这样的循环过程,整个分布式分割学习网络得以完成训练,全程无需各方共享原始数据。

        客户端只需传输切割层之前的初始层输出,显著降低了通信开销。同时,由于客户端仅需计算部分网络权重,其计算负担也大幅减少。在模型性能上,拆分学习的精度与联邦学习及大批量同步SGD等分布式深度学习方法相当,但在客户端数量较多的情况下,其计算代价可以更低。      

        示例:一种基于centralized server模式的架构【4】:

2. 拆分学习 案例 

        以【5, 6】中例子说明执行方式。

        以split DNN模型的拆分为例:

Alice :拥有 data_alice , model_base_alice

Bob :拥有 data_bob , model_base_bob , model_fuse

  1. Alice 用本方的数据通过 model_base_alice 得到 hidden0 ,发送给Bob
  2. Bob 用本方的数据通过 model_base_bob 得到 hidden1
  3. hidden_0 和 hidden_1 输入到 AggLayer 进行聚合,聚合后的 `hidden_merge`为输出
  4. Bob 方输入 hidden_merge 到 model_fuse,结合`label` 得到梯度,并进行回传
  5. 通过 AggLayer 将梯度拆分为 g0 , g1 两部分,将 g0 和 g1 分别发送给 Alice 和 Bob
  6. Alice 和 Bob 的 basenet 分别根据 g0 和 g1 对本方的基础模型进行更新

        以split GNN为例:        

        参与者在服务器(可信第三方)的协助下协作训练一个全局模型。服务器存储模型的一部分,但由于原始数据和其真实标签具有高度的隐私敏感性,参与者不愿直接共享这些数据和标签。在实际操作中,标签服务器与某一参与者相同,这名参与者希望通过其他参与者的数据增强分类模型的能力。

        在神经网络模型中,每个原始样本被输入到输入层,而真实标签则与模型预测结果在输出层进行比较以计算损失。因此,为了保护每对样本与标签的隐私,输入层和输出层都应由每个参与者分别存储,而其余的网络层可以卸载到服务器上,从而形成三方分离的SplitGNN架构。三方分离SplitGNN中,每一层的前向计算可以分为三个步骤:首先,参与者使用私有数据单独计算本地嵌入;然后,服务器(可信第三方)收集非隐私的本地嵌入以计算全局嵌入;最后,服务器返回最终的计算结果。

3. 拆分学习的安全性问题及应对方案

        从拆分学习的框架来看,存在两种主要的模式,第一种是一方的中间数据(cut layer输出)需要传给另一方(标签方)做后续计算。第二种是客户端的中间数据加密后发送给可信第三方进行后续计算。

3.1 风险案例1

       【6】提出了一种针对拆分学习的全面攻击方法EXACT。假设客户端拥有仅限于自身的私有特征,这些特征不希望与任何第三方共享。同时,假设标注数据(ground-truth labels)也是私密的,仅为客户端所知,在该假设下研究标签泄露的情况。服务器试图基于切割层的梯度恢复客户端的私有数据和真实标注。考虑一个有 C 个分类类别的问题,其特征空间分为服务器端特征空间 X_{\text{server}}和客户端特征空间 X_{\text{client}},标签空间为 Y = [C] = \{1, ..., C\}。服务器端的功能定义为 F_{\text{server}}: X_{\text{server}} \to \mathbb{R}^d,输出服务器端的激活值 a_c。客户端的功能定义为 F_{\text{client}}: X_{\text{client}} \times \mathbb{R}^d \to S,将客户端特征和服务器输出映射到概率单纯形 S = \{z \mid \sum_{i=1}^C z_i = 1, z_i \geq 0, \forall i \in [C]\}。两者的模型由神经网络权重 w = (w_{\text{server}}, w_{\text{client}})参数化,损失函数 L(w) 为常见的交叉熵损失。在拆分学习中,切割层的激活输出 a_c从服务器传输到客户端,客户端将梯度 \partial L / \partial a_c​ 返回给服务器以完成反向传播。然而,切割层权重的梯度 \partial L / \partial w_c​ 保留在客户端完成更新。这种设置允许服务器在不直接访问客户端原始数据的情况下进行训练。

        假设攻击者能够在训练期间访问客户端模型参数。虽然某些情况下可以通过安全聚合方案减少攻击者的访问权限,但假设默认攻击者掌握服务器端特征、服务器端模型及客户端模型的知识。这一假设符合分布式学习的实际情况。

        EXACT 是一种基于梯度匹配的攻击方法,通过对切割层梯度 \partial L / \partial a_c 的分析重建客户端的私有特征和真实标注。其基本思路如下:

  1. 生成可能的特征组合列表:客户端的私有特征被认为是离散的,或可以离散化为有限类别。列出所有可能的特征组合L = f_1 \times f_2 \times ... \times f_N \times L,其中 f_1, ..., f_N是私有特征,L 是标注类别。
  2. 梯度匹配:对于每一种可能的特征配置 L[i],计算服务器激活值 a_c 和梯度 \partial L_i / \partial a_c。然后,与客户端提供的真实梯度 \partial L / \partial a_c​ 比较,通过最小化两者间的距离(例如 L_2 距离),找出最接近的配置
  3. 重构特征与标注:选择距离最小的特征组合作为重构结果。

        EXACT 方法通过遍历所有可能的组合,确保能够重构最相关的私有特征,且不依赖传统优化步骤(如二阶导数计算或正则化调优)。虽然这种方法的搜索空间会随着私有特征数量或类别的增加而指数增长,但可以采用启发式或智能搜索方法加速收敛。

        在实验中,【7】算法在平均 16.8 秒内成功重构了给定样本的特征。

3.2  风险案例2 

        拆分学习的主要漏洞在于服务器对客户端网络学习过程的控制权。 即使攻击者不了解 f 的架构及其权重,也可以伪造适当的梯度并强制 f 收敛到攻击者选择的任意目标函数。通过这种方式,攻击者可以在客户端生成的数据中引入某些属性,从而针对底层的隐私数据实施推理或重建攻击。

        【8】提出了一个通用框架来实现这一攻击过程。在该框架中,恶意服务器将客户端选择的原始学习任务替换为一个新目标,刻意塑造 f 的余域/特征空间。在攻击中,服务器利用其对训练过程的控制,劫持 f,将其引导到一个特定的、精心设计的目标特征空间 \tilde{Z}。一旦 f 映射到 \tilde{Z},攻击者即可通过局部逆转已知的特征空间,恢复隐私训练实例。   

        这种攻击包括两个阶段,图来自【9】:

  1. 设置阶段(Setup phase):服务器劫持 f 的学习过程;
  2. 推理阶段(Inference phase):服务器自由恢复从客户端发送的 smashed 数据。
    将这一过程称为特征空间劫持攻击(Feature-space Hijacking Attack,简称 FSHA)。

设置阶段

        设置阶段在拆分学习的多个训练迭代中进行,逻辑上分为两个并行步骤,如图 2a 和图 2b 所示。在这一阶段,服务器训练三个不同的网络:\tilde{f}\tilde{f}^{-1} 和 D,它们各自承担不同的角色:

  • \tilde{f}:一个试验性网络,动态定义客户端网络 f 的目标特征空间 \tilde{Z}。类似于 f,\tilde{f} 是数据空间与目标特征空间\tilde{Z}之间的映射,且|\tilde{f}(x)| = |f(x)| = k
  • \tilde{f}^{-1}\tilde{f}​ 的逆函数近似。在训练中用来确保 \tilde{f} 的可逆性,并在推理阶段从 smashed 数据恢复私有数据。
  • D:一种判别器,间接引导 f 学习将私有数据映射到由 \tilde{f} 定义的特征空间。最终,D 替代协议中的 s,并在分布式训练过程中向客户端发送梯度。

        设置阶段还需要一个未标记数据集 X_{pub},用于训练上述三个网络。这是攻击者对客户端设置的唯一要求。

        在每次分裂学习训练迭代中(即客户端向服务器发送 smashed 数据时),恶意服务器通过两个并行步骤训练上述三个网络(a 和b):

  1. 服务器从 X_{pub} 中采样一批数据,用于联合训练 \tilde{f} 和 \tilde{f}^{-1}。目标是优化 \tilde{f}\tilde{f}^{-1} 的权重,使其收敛为自编码功能,即\tilde{f}^{-1}(\tilde{f}(x)) = x。通过以下损失函数实现:

    L_{\tilde{f}, \tilde{f}^{-1}} = d(\tilde{f}^{-1}(\tilde{f}(X_{pub})), X_{pub})

    其中 d 是合适的距离函数,例如均方误差(MSE)。

  2. 同时训练判别器 D。它的作用是区分\tilde{f}(X_{pub})f(X_{priv})(即 smashed 数据)之间的特征空间。D 的输入为 \tilde{f}(X_{pub}) 或 f(X_{priv}),训练目标是对前者赋予高概率,对后者赋予低概率。损失函数为:

    L_D = \log(1 - D(\tilde{f}(X_{pub}))) + \log(D(f(X_{priv})))

        完成 D 的局部训练后,恶意服务器使用 D 生成一个适合的梯度信号发送到远程客户端,以训练 f。此梯度通过以下对抗性损失函数生成:

L_f = \log(1 - D(f(X_{priv})))

        f 被训练以最大化判别器 D 的错误分类概率。客户端的网络需要学习将数据映射到一个与 \tilde{f} 特征空间无法区分的空间。

攻击推理阶段

        经过足够多的设置迭代后,f 达到一个状态,攻击者可以从 smashed 数据中恢复私有训练实例。此时,由于对抗训练,f 的余域与\tilde{f}​ 的特征空间 \tilde{Z} 重叠。攻击者通过应用逆网络 \tilde{f}^{-1} 即可恢复 X_{priv}

\tilde{X}_{priv} = \tilde{f}^{-1}(f(X_{priv}))

        其中 \tilde{X}_{priv}​ 是私有训练实例 X_{priv}的适当近似。

4. 风险应对措施案例

        正如上述原理分析,拆分学习是一种协作学习技术,允许参与者(例如客户端和服务器)在不共享原始数据的情况下训练机器学习模型。在这种设置中,客户端最初对原始数据应用其部分机器学习模型生成激活图,然后将其发送给服务器以继续训练过程。从我们列举的风险案例来看,重建激活图可能会导致客户端数据的隐私泄露。

        【10】通过构建一个基于U形拆分学习的协议,可以在同态加密数据上运行。更具体地说,在该方法中,客户端在将激活图发送给服务器之前对其进行同态加密,从而保护用户隐私。相比于其他基于SL的工作,减少了隐私泄露。在最优参数设置下,使用同态加密数据训练的U形拆分学习仅比在明文数据上训练的准确性降低2.65%。原始训练数据的隐私得到了保护。

        根据这个思路,还可以进一步将MPC、TEE等多种隐私计算引入来提升拆分学习的安全性。比如【11】提出将mpc引入到拆分学习加强安全性,建议融合MPC和拆分学习技术,敏感数据相关计算采用MPC技术来执行;而其余的大量的复杂非线性计算由服务器来执行,并运用对抗学习、差分隐私、贝叶斯学习、随机置换等技术加固算法的安全性,以取得安全性、效率、精确性的平衡。

5. 基于拆分学习的大模型训练机制

        因为拆分学习的高效性能,目前在大模型的训练中,已经出现了一些方案。

        比如【12】提出一种split-llm模型框架。

        在拆分学习中,大模型被分为三部分:

  • 底层(Bottom Layers)
  • 主干层(Trunk Layers,也称为适配器层)
  • 顶层(Top Layers)

        其中,底层和顶层分别是模型的输入端和输出端,而主干层则是模型的中间部分。        

  • 在每轮联邦学习开始时,选择客户端0、1和2。
  • 从磁盘加载客户端0的模型参数(包括底层和顶层以及其对应的服务器端的主干部分)到GPU模型中。
  • 客户端0进行本地训练,更新所有模型参数,遵循与集中式学习一致的流程。
  • 客户端0完成训练后,将模型参数保存到磁盘。
  • 从磁盘加载客户端1的模型参数到GPU模型中。
  • ...
  • 在联邦学习轮次结束时,将所有客户端对应的主干参数在磁盘上进行聚合,得到平均主干。然后,将所有客户端的主干参数更新为平均主干。
  • 重复步骤1-7。

        【13】提出大模型微调对资源有限的计算实体造成了计算负担。采用拆分学习在解决这一问题上具有潜力。后续可以继续关注一下。

6. 参考材料

【1】SplitNN-driven Vertical Partitioning

【2】SplitFed: When Federated Learning Meets Split Learning

【3】Split learning for health: Distributed deep learning without sharing raw patient data

【4】A Study of Split Learning Model

【5】拆分学习:银行营销

【6】SplitGNN: Splitting GNN for Node Classification with Heterogeneous Attention

【7】Evaluating Privacy Leakage in Split Learning

【8】Unleashing the Tiger: Inference Attacks on Split Learning

【9】Combined Federated and Split Learning in Edge Computing for Ubiquitous Intelligencein Internet of Things: State-of-the-Art and Future Directions

【10】A More Secure Split: Enhancing the Security of Privacy-Preserving Split Learning

【11】隐私保护机器学习,助力安全高效数字化转型

【12】SplitLLM:Split Learning Simulation Framework for LLMs

【13】SplitLoRA: A Split Parameter-Efficient Fine-Tuning Framework for Large Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/920334.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java函数式编程基础之【Optional类】详解

一、概述 Optional 是 Java 8 引入的新特性,它是一种特殊的包装类,里面只存储一个元素(这一点与基本数据类型的包装类有点相似)。有的文档称其为容器类,但它不同于 Conllection框架中的集合类,它一个容器只…

stm32与ht7038的项目

最近做了一个stm32与ht7038的数据采集项目 硬件包含太阳能充电电路 ht7038采集芯片电路 buck电路 stm32最小系统电路和lora模块电路 硬件PCB如下图所示 ht7038的程序如下所示ht7038.c #include "ht7038.h" #include "stm32l0xx_hal_spi.h"typedef uint8…

AbsPlus框架介绍2

ABSPlus框架以其集成的多功能性在市场上脱颖而出。它不仅提供美观且符合主流风格的页面设计,还支持灵活的流程配置,包括算法处理流程和页面审批流程。在众多业务系统中,流程管理往往是核心且复杂的挑战,涉及数据库设计、页面开发以…

springboot基于微信小程序的食堂预约点餐系统

摘 要 基于微信小程序的食堂预约点餐系统是一种服务于学校和企事业单位食堂的智能化解决方案,旨在提高食堂就餐的效率、缓解排队压力,并优化用户的就餐体验。系统作为一种现代化的解决方案,为食堂管理和用户就餐提供了便捷高效的途径。它不仅…

免费的视频混剪综合处理工具介绍与下载

免费的视频混剪综合处理工具 软件截图 功能 支持: 这个软件主要用于视频的批量处理,包括添加水印、裁剪、画中画、去水印、去头尾、变速、文本和背景音乐等功能。以下是界面中一些主要功能的介绍: 视频队列:显示当前待处理的视…

2024年亚太数学建模竞赛问题C宠物产业及相关产业发展分析与对策

随着人们消费理念的发展,随着经济的快速发展和人均收入的提高,宠物产业作为一个新兴产业在全球范围内逐渐积聚势头。1992年,中国小动物保护协会成立,随后1993年,皇家狗狗、玛氏等国际宠物品牌进入中国市场。随着“宠物…

如何默认VS2019用管理员方式打开

1.通过快捷方式找到“Visual Studio 2019”所在文件夹。 2.继续在"Visual Studio 2019"右键菜单,打开“devenv.exe”所在文件夹。 3.在“devenv.exe”右键菜单,选择“兼容性疑难解答”。 4.选择“疑难解答程序”。 5.选择勾选“该程序需要附加…

鸿蒙UI开发与部分布局

UI开发 1. 布局概述 1.1 开发流程 1.先确定开发流程 -> 2.分析页面元素构成 ->3.选用合适的布局容器组件 1.3 布局元素组成:盒模型 2.1 布局分类 2.1 线性布局 线性布局是开发中最常用、最基础的布局,通过线性容器Row和Column构建 2.1.1 线性布…

Python中Tushare(金融数据库)入门详解

文章目录 Python中Tushare(金融数据库)入门详解一、引言二、安装与注册1、安装Tushare2、注册与获取Token 三、Tushare基本使用1、设置Token2、获取数据2.1、获取股票基础信息2.2、获取交易日历2.3、获取A股日线行情2.4、获取沪股通和深股通成份股2.5、获…

性能优化(二):ANR

介绍 ANR全称Application Not Responding,意思就是程序未响应。如果一个应用无法响应用户的输入,系统就会弹出一个ANR对话框,用户可以自行选择继续等待亦或者是停止当前程序。 Android系统会监控程序的响应状况,一旦出现下面情况…

神经网络问题之:梯度不稳定

梯度不稳定是深度学习中,特别是在训练深度神经网络时常见的一个问题,其本质涉及多个方面。 一、根本原因 梯度不稳定问题的根本原因在于深度神经网络的结构和训练过程中的一些固有特性。随着网络层数的增加,梯度在反向传播过程中会逐层累积变…

弹幕发送功能‘简单’实现

导入依赖 <!-- websocket弹幕依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency>后端代码 package com.by.danmaku;import org.springfra…

RPC-健康检测机制

什么是健康检测&#xff1f; 在真实环境中服务提供方是以一个集群的方式提供服务&#xff0c;这对于服务调用方来说&#xff0c;就是一个接口会有多个服务提供方同时提供服务&#xff0c;调用方在每次发起请求的时候都可以拿到一个可用的连接。 健康检测&#xff0c;能帮助从连…

奶龙IP联名异军突起:如何携手品牌营销共创双赢?

在快节奏的互联网消费时代&#xff0c;年轻消费群体对产品和品牌的要求越来越挑剔。因此在品牌年轻化的当下&#xff0c;一方面需要品牌自身形象也要不断追求时代感&#xff0c;另一方面品牌也需要不断引领消费者需求&#xff0c;提升竞争力和产品力。 奶龙作为近年来异军突起…

Flutter:photo_view图片预览功能

导入SDK photo_view: ^0.15.0单张图片预览&#xff0c;支持放大缩小 import package:flutter/material.dart; import package:photo_view/photo_view.dart;... ...class _MyHomePageState extends State<MyHomePage>{overrideWidget build(BuildContext context) {return…

第二课 Model模型资源导入设置检查与优化

上期我们学习了最简单的audio音效的优化&#xff0c;接下来我们继续model模型资源的优化&#xff0c;我将汇总各路大神关于模型优化的思路和方法供你和我学习。 首先我们还是要把我们优化的目标重申一遍&#xff1a; 优化的目标 1.文件体积尽可能小 2.内存占用尽可能小 3.…

RabbitMQ实现异步下单与退单

前言&#xff1a; 在电商项目中的支付模块也是一个很重要的模块&#xff0c;其中下订操作以及退订操作就是主要的操作。其次的下单是同步下单&#xff0c;也就是第三方支付、数据库扣减、积分增加、等等其他业务操作&#xff0c;等待全部执行完毕后向用户返回成功响应请求。对…

macOS 无法安装第三方app,启用任何来源的方法

升级新版本 MacOS 后&#xff0c;安装下载的软件时&#xff0c;不能在 ”安全性与隐私” 中找不到 ”任何来源” 选项。 1. 允许展示任何来源 点击 启动器 (Launchpad) – 其他 (Other) – 终端 (Terminal)&#xff1a; 打开终端后&#xff0c;输入以下代码回车&#xff1a; …

微服务即时通讯系统的实现(服务端)----(1)

目录 1. 项目介绍和服务器功能设计2. 基础工具安装3. gflags的安装与使用3.1 gflags的介绍3.2 gflags的安装3.3 gflags的认识3.4 gflags的使用 4. gtest的安装与使用4.1 gtest的介绍4.2 gtest的安装4.3 gtest的使用 5 Spdlog日志组件的安装与使用5.1 Spdlog的介绍5.2 Spdlog的安…

欧洲新车安全评鉴协会(Euro NCAP)2026 年规程的 5 项关键更新

数十年来,欧洲新车安全评鉴协会为全球车辆安全评级树立了黄金标准。该协会向来以引领潮流著称,常常在法规强制要求之前数年就采用新的安全技术。 随着 2026 年欧洲新车安全评鉴协会的更新即将到来,汽车行业急切地想知道需要格外密切关注哪些特性和技术。 尽管欧洲新车安全…