【隐私计算】隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)

1. 背景分析

        隐私计算作为一种实现“原始数据不出域,可用不可见”的数据流通价值的关键技术,经历了2020-2023年的高光时刻,却在2024年骤然走向低谷。从各种渠道了解到一些业内曾经风光无两的隐私计算公司都有不同程度的裁员。几乎一夜之间,行业的重心转向了数据要素流通平台和公共数据运营平台,不管是巨头,还是创业公司,企业不再仅仅标榜自己是“隐私计算公司”,而是更强调自己是作为“数据要素生态运营公司”。并且各方都在狂降成本和探索应用出路,比如某巨头由于员工成本超高,不太可能采用定制的模式输出,开源是最佳的解决方案,同时与各大高校合作,吸引大量的本科生和研究生作为代码贡献者,参与到开源平台的建设,降低开发成本。并且通过开源,形成事实性的行业标准和范本,行业内很多机构都相继提出了需要与某开源的平台能够实现互联互通。此外,通过产学研合作等方式扩大数据源合作和前沿技术研究,在保持技术和业务增长的同时可以进一步降低成本。这就是当前的行业现状,大家都在谋求可行的出路。

        事实上,我反倒认为隐私计算企业在这样的变革中愈加成熟了。若隐私计算仅被视为一项技术,可能其影响更多局限于学术领域。尤其在2020-2022年间,行业和各类大型机构对隐私计算的认知大多聚焦在技术本身,竞相比拼技术指标,你追我赶,好不热闹。这个现象像极了大模型行业,百模大战、竞技场PK,只要开源一款新的版本大模型就声称自己在某种程度上超过了GPT某个系列的大模型。但是大模型企业有一个很清晰的认知,一开始公司就定位自己的核心业务形态,比如to C需要做哪些, to B又需要往哪方面加强,并且比如AI六小虎的融资金额够充足。公司也划分为模型预训练、AI架构、AI应用等核心部门,大模型作为一种技术,需要探索落地应用的方向和场景,找到愿意付费的群体。回到隐私计算本身,如果技术无法用于解决实际业务问题、实现持续应用,它的价值终究难以持久,融资也迟早会耗尽。数据要素运营场景的出现,其实是为隐私计算找到了业务应用场景。数据要素运营的范围更广、需求更多元,数据的分类分级也更加复杂,隐私计算则在其中作为专门应对高密级数据的技术解决方案,成为数据要素生态的一环。

        当然,某些企业在隐私计算的场景应用其实还挺丰富的,也有一系列的落地成果,同行评价也比较高,今天就不展开说这块。本文主要是希望探讨隐私计算在应用层面的更多可能性, 跳出原先的金融风控、广告营销的狭小应用范围。

2. 隐私计算应用场景

2.1 隐私数据存储与计算

        隐私数据存储,实现大型公司系统数据的可用不可见。能够为业务提供安全合规的解决方案。这里面也会涉及到高并发的分布式系统建设,解决数据存储和计算的安全合规问题等。隐私数据存储和计算,或者说采用隐私计算去支撑系统研发,本身就是一整套的解决方案,涉及密码学、算法、研发、架构等多方面,是系统性的工程,比如下图的处理模式【1,2】。

        以下列出的是一些可能的技术应用方向,仅供参考。

1. 隐私数据存储

加密存储:使用加密算法对敏感数据进行存储加密,密钥通过硬件安全模块或分布式密钥管理系统进行保护,从而实现“不可见”的数据存储。所有数据在保存和提取时都需解密和加密处理,以防止数据泄露。

分布式加密数据库:采用支持数据加密和分区存储的分布式数据库系统,确保高并发环境下的数据读取和存储稳定、安全。

数据分层与分级管理:将数据按敏感级别划分(如公开、内部、敏感、机密等),并根据数据级别应用相应的存储和加密策略,以提高存储合规性和安全性。

去标识化与匿名化:将敏感标识信息去标识化或进行匿名化处理,进一步降低数据泄露的隐私风险。

2. 隐私保护计算

这里仅仅做简单介绍,详细的隐私计算算法介绍可以参考隐私计算专栏

同态加密计算:同态加密允许在加密数据上直接执行计算,不需要将数据解密即可完成计算任务。

多方安全计算(MPC):在涉及跨部门或跨公司计算的数据时,通过多方安全计算技术实现数据的联合计算。各方只提供数据的部分信息,计算的中间数据对所有参与方不可见。

可信执行环境(TEE):采用可信执行环境来隔离敏感数据计算。通过硬件级别的隔离,保证计算过程中数据在内存中的安全,防止外部环境的篡改和窥探。

联邦学习:联合建模和协作分析的场景。通过联邦学习框架在各个数据源本地训练模型,服务端仅聚合模型参数,不会获取数据本身,实现数据协同分析。

3. 分布式系统架构设计

分布式存储与负载均衡:利用分布式存储和负载均衡机制,确保在高并发下的稳定性和数据处理能力,同时可以通过分布式加密存储方案加强数据的安全性。

高并发数据访问控制:在高并发场景中,利用分布式锁和分级授权管理,严格控制对敏感数据的访问。基于角色和属性的访问控制机制,保证数据的访问权限划分清晰。

数据流监控与日志审计:在数据流通过分布式系统处理过程中,通过日志记录和实时监控,对所有访问和操作进行记录上链,便于合规审查,发现异常行为时可实时告警并采取措施。

4. 合规与安全策略

合规加密算法和标准:确保所用的加密算法、数据保护技术符合行业安全合规要求,以确保数据使用的合规性。

动态数据安全:使用动态访问控制策略,根据数据使用场景、访问频率和敏感级别动态调整数据的加密策略和访问策略,满足不同业务的安全需求。

安全策略隔离:对于不同的业务模块,通过微服务隔离或网络隔离实现数据的隔离和访问控制,避免不同业务间的数据越界访问。

访问权限审计:定期进行隐私数据访问权限的审计,确保访问权限的合理性,并根据业务变化及时调整权限。

5. 高效的数据存储与计算框架

数据分区与缓存:对高频访问的隐私数据进行分区和缓存处理,以减轻分布式系统下的存储压力,减少对后端数据库的直接访问,提升高并发环境中的计算效率。

边缘计算:在数据存储和计算场景中引入边缘计算,通过数据源边缘节点进行预处理和聚合,减少对中心化服务端的访问请求,优化高并发场景下的数据流处理。

2.2 Web3+隐私计算

2.2.1 Web3.0概念解析

        什么是Web3?【3】给出了一些定义。Web3.0其实是应对零信任交互系统需求不断增加而产生的。将信息交给某种主体(比如电商平台、社交网站、云平台等)本身是一种根本上存在缺陷的模式。机构不干涉我们数据的概率只是所需的努力减去预期收益,但考虑到大多数组织的收入模式需要尽可能多地了解用户,这就存在一种现实性的矛盾,在利益面前,总是会有主体突破某种限制。

        Web 3.0,重新构想对Web的使用方式,但其交互模式有着根本性的不同。将假定为公共的信息发布出来,假定需要共识的信息放入共识账本中,而假定为私密的信息则严格保密。所有通信都将通过加密信道,并只用伪匿名身份进行传输,不涉及可追踪信息(如IP地址)。简而言之,通过数学手段设计系统来实现我们原有的假设,因为没有任何组织能够真正被信任。

        Web3.0主要包含四个方面:静态内容发布、动态消息、无信任交易和集成用户界面。第一部分是去中心化加密的信息发布系统。它通过一个信息的哈希返回该信息本身。一旦下载,可以确保这是正确的信息,因为地址是与之相关的。第二部分是基于身份的伪匿名低层消息系统,用于网络中的人与人之间的通信。采用强加密,以确保消息可以用身份的公钥加密,确保仅该身份能解密,且发送者可用私钥签名来证明消息确实来自于自己,并为接收者提供安全的通信回执。Web 3.0的第三部分是共识引擎。共识引擎是一种达成互动规则的手段。Web 3.0中,所有信任的信息发布与更改都将通过共识引擎来完成,比如以太坊。Web 3.0的第四部分是整合以上组件的用户界面——“浏览器”。包含URI栏、后退按钮以及页面显示区域,但与传统网页不同,Web 3.0中的应用以共识引擎解决的名称为入口。使用信息发布系统,可以扩展为一组前端所需的文件。        

2.2.2 Web3.0与隐私计算关系

        隐私保护是维护用户权利的基石,也是Web3的重要发展方向之一。在开放且用户主导的Web3,隐私保护是一种标配。在日益复杂的交互环境中,很多关键信息需要外部保障来防止隐私信息被恶意利用。Web3提倡还权于用户,构建去中心化的价值互联网,改变Web2时代用户隐私被忽视的现状。在Web3中,隐私不仅需要保密性,也需要实现匿名性,涵盖数据隐私、身份隐私和计算隐私等多个方面。数据隐私和身份隐私的解决方案会逐渐成熟,基本实现数据内容的隐私保护和物理身份与数字身份的隔离。

        比如多方安全计算(MPC)拓展至Web3领域,将去中心化数据所有权与隐私保护技术无缝结合。确保高度安全的在线环境,同时保护了个人的数据自主权。在Web3.0与MPC的交汇点上,用户可以掌控自己的私密数据【5】。比如TEE机密计算在Web3应用中可以建立可信的去中心化系统,无需盲目信任,通过机密计算验证数据和过程,增强了用户对系统的信任。在不暴露数据的前提下使用数据。增强智能合约功能,使智能合约可以安全访问敏感数据,支持复杂的去中心化应用场景。赋予个体数据主权,个人可以共享数据而不失去控制权,进一步保障数据隐私【6】。此外,零知识证明特别适合匿名身份管理,在Web3中,去中心化身份是一个重要的领域。零知识证明可以让用户证明他们拥有某些特定属性(例如年龄、国籍等),但不透露完整身份信息。

        这里给一个具体应用案例:Web 3.0 场景下的MPC 钱包。MPC 钱包是基于多方计算方法创造的数字加密货币钱包的子工具。它们允许多个用户创建一个联合钱包来存储数字资产,而不会出现单点故障。在实际应用中,用户可独立访问、操作和修改 MPC 钱包,而不会泄露彼此的身份或将共享的数字资产置于危险之中。

2.3 物联网+隐私计算

        物联网(IoT)整合了数十亿个由不同组织和个人所拥有的设备,利用这些物联网设备提供的信息,为解决以前太大太难的互联网规模问题提供了机会。物联网应用(IoT)有可能获取敏感的用户数据,就像其他基于网络的信息系统一样,IoT也必须应对大量网络安全和隐私威胁,这些威胁甚至可能将整个行业的数据甚至国家的数据作为人质,如下图监控设备例子所示【8】。

        IoT必须有效地应对这些威胁,并确保从IoT设备收集和提炼的信息的安全和隐私。IoT分为设备层、基础设施/平台层和应用层,需要确保在这三个IoT层之间端到端隐私。隐私保护技术利用多个IoT云数据存储来保护从IoT收集的数据的隐私。【9】提出了一套隐私保护的IoT架构和概念验证实现。

2.4 大模型+隐私计算  

        关于隐私计算与大模型的结合,出发点主要有两个:

        (1)高质量数据的消耗殆尽,未来可能需要更多私域的高质量数据,而私域数据一般不出域,需要利用隐私计算技术,来实现多方高质量数据的训练应用。

        (2)大模型本身存在的一些隐私保护风险。比如敏感场景下用户的prompt需要进行保护,或者大模型自身的关键模型参数需要保护。

        之前,我们在《大模型的安全由隐私计算来保护》、《全同态加密应用场景案例(隐私云计算中的大模型推理)》中介绍了隐私计算技术在大模型训练、预测等场景的应用案例。

        【10】对大模型中隐私保护进行了分类。红色表示各种攻击技术,蓝色代表通过处理训练数据或模型来保护隐私的当前可行方案。最后,橙色标注的是现有的隐私保护工具。

        除了我们之前文章中介绍的案例外,这里再给三个新的应用案例(24年发表),帮助理解如何利用隐私计算技术实现大模型的隐私保护处理。

        【10】中提到采用差分隐私技术,在模型中,通常是通过在训练梯度中加入噪声(DP-SGD)来实现隐私保护。但在语言模型的所有训练参数的梯度中添加噪声往往成本较高。因此参数高效微调技术可以减少训练参数的数量,从而降低在这些梯度上应用差分隐私的成本。     

        【11】涉及关于敏感用户指令的处理方法。大模型应用的服务提供商在真实环境中收集用户指令,并利用这些指令进一步调整模型,使其更符合用户意图。但是,这些指令可能包含敏感信息,并在数据标注过程中被人工处理,导致隐私优化无法解决的新隐私风险。因此提出使用合成指令替代真实指令进行数据标注和模型微调。通过使用经过隐私微调的生成器生成合成指令,可确保差分隐私。为了实现所需的实用性,设计过滤算法使合成指令的分布与真实指令的分布相匹配。在有监督微调和基于人类反馈的强化学习中,合成指令集效果可与真实指令相媲美。

        【12】提出了一种两方密态推理框架 Nimbus,专门用于 Transformer 神经网络的隐私保护推理,为 Transformer 神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速,比如线性层采用基于外积编码的高效矩阵乘法协议、非线性层采用输入分布感知的分段多项式拟合,针对那些出现概率较高的区间给予更精细的拟合,而对于低概率出现的区间,则允许其存在一定程度上的拟合误差。该框架在保护模型和用户数据隐私的前提下,实现了高效的推理过程,支撑大模型的隐私推理场景。

        

3. 参考材料

【1】dsMTL: a computational framework for privacy-preserving, distributed multi-task machine learning 

【2】Privacy-Preserving Distributed Energy Resource Control with Decentralized Cloud Computing

【3】What Web 3.0 Looks Like

【4】Web3.0知识要点

【5】Securing the future of data privacy with multiparty computation                

【6】Secure and Private Data Processing in Web3: A Deep Dive into Arcium and Confidential Computing

【7】MQX 在 Web 3.0 领域的应用:MPC 钱包安全交易方案

【8】Privacy-Preserving Protocols for Smart Cameras and Other IoT Devices

【9】Privacy preserving Internet of Things: From privacy techniques to a blueprint architecture and efficient implementation

【10】Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions

【11】Privacy-Preserving Instructions for Aligning Large Language Models

【12】Nimbus: Secure and Efficient Two-Party Inference for Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/918547.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【大数据学习 | flume】flume的概述与组件的介绍

1. flume概述 Flume是cloudera(CDH版本的hadoop) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS、Hbase,简单来说flume就是收集日志的。 Flume两个版本区别: ​ 1&…

【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法

【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法 目录 文章目录 【大语言模型】ACL2024论文-16 基于地图制图的罗马尼亚自然语言推理语料库的新型课程学习方法目录摘要:研究背景:问题与挑战:如何解…

数据库审计工具--Yearning 3.1.9普民的使用指南

1 页面登录 登录地址:18000 (不要勾选LDAP) 2 修改用户密码 3 DML/DDL工单申请及审批 工单申请 根据需要选择【DML/DDL/查询】中的一种进行工单申请 填写工单信息提交SQL检测报错修改sql语句重新进行SQL检测,如检测失败可以进行SQL美化后…

Day44 | 动态规划 :状态机DP 买卖股票的最佳时机IV买卖股票的最佳时机III

Day44 | 动态规划 :状态机DP 买卖股票的最佳时机IV&&买卖股票的最佳时机III&&309.买卖股票的最佳时机含冷冻期 动态规划应该如何学习?-CSDN博客 本次题解参考自灵神的做法,大家也多多支持灵神的题解 买卖股票的最佳时机【…

Windows配置域名映射IP

一、找到 hosts 文件 打开 C:\Windows\System32\drivers\etc 二、添加hosts文件修改、写入权限 右击hosts文件,点击属性 -> 安全 -> Users -> 编辑 -> Users -> 添加修改、写入权限 -> 确定 -> 确定 进入常规,将只读属性关闭 三、…

sapiens推理的安装与使用

文章目录 1、安装1.1 克隆代码库1.2 设置 Sapiens-Lite 的代码路径1.3 创建 Conda 环境并安装必要的依赖1.4 下载模型检查点 2、推理 sapiens,是meta发布的以人为中心的视觉大模型,"sapiens"这个词来源于拉丁语,意为“智慧的”或“…

黑马智数Day10

项目背景说明 后台管理部分使用的技术栈是Vue2,前台可视化部分使用的技术栈是Vue3 前台可视化项目不是独立存在,而是和后台管理项目共享同一个登录页面 微前端的好处 微前端是一种前端架构模式,它将大型单体应用程序分解为小的、松散耦合的…

A3超级计算机虚拟机,为大型语言模型LLM和AIGC提供强大算力支持

热门大语言模型项目地址:www.suanjiayun.com/mirrorDetails?id66ac7d478099315577961758 近几个月来,我们目睹了大型语言模型(LLMs)和生成式人工智能强势闯入我们的视野,显然,这些模型在训练和运行时需要…

乐维网管平台(七):网络稳定与高效的“安全锦囊”

试想一下,你给电脑升级了一个软件,升级完成后发现有BUG,经常无故卡死,这时候想回退或重新安装旧版本…相对地,一家企业的网络管理员,在对公司的核心交换机进行复杂的配置调整时,一个小小的疏忽&…

基于Python的图片信息推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

没钱买KEGG怎么办?REACTOME开源通路更强大

之前搜集免费生物AI插图时简单提到了通路数据库Reactome(https://reactome.org/), 那些精美的生物插图只能算是该数据库附赠的小礼品,他的主要功能还是作为一个开源的通路数据库,为相关领域的研究者提供直观的可视化生…

spi 回环

///tx 极性0 (sclk信号线空闲时为低电平) /// 相位0 (在sclk信号线第一个跳变沿进行采样) timescale 1ns / 1ps//两个从机 8d01 8d02 module top(input clk ,input rst_n,input [7:0] addr ,input …

Lc70--319.两个数组的交集(二分查找)---Java版

1.题目描述 2.思路 用集合求交集,因为集合里面的元素要满足不重复、无序、唯一。使得集合在去重、查找和集合操作(如交集、并集、差集等)中非常高效和方便。 3.代码实现 class Solution {public int[] intersection(int[] nums1, int[] nu…

项目2:简易随机数生成器 --- 《跟着小王学Python·新手》

项目2:简易随机数生成器 — 《跟着小王学Python新手》 《跟着小王学Python》 是一套精心设计的Python学习教程,适合各个层次的学习者。本教程从基础语法入手,逐步深入到高级应用,以实例驱动的方式,帮助学习者逐步掌握P…

qml绘制折线图

参考链接 qml绘制折线图 在QML(Qt Modeling Language)中绘制折线图可以通过使用Canvas元素或ChartView元素来实现。以下是两种方法的示例: 方法一:使用Canvas元素 Canvas元素允许你在QML中绘制自定义图形。你可以通过JavaScrip…

MODBUS TCP转CANOpen网关

Modbus TCP转CANopen网关 型号:SG-TCP-COE-210 产品用途 本网关可以实现将CANOpen接口设备连接到MODBUS TCP网络中;并且用户不需要了解具体的CANOpen和Modbus TCP 协议即可实现将CANOpen设备挂载到MODBUS TCP接口的 PLC上,并和CANOpen设备…

Spring Cloud Alibaba [Gateway]网关。

1 简介 网关作为流量的入口,常用功能包括路由转发、权限校验、限流控制等。而springcloudgateway 作为SpringCloud 官方推出的第二代网关框架,取代了Zuul网关。 1.1 SpringCloudGateway特点: (1)基于Spring5,支持响应…

delphi fmx android 离线人脸识别

搜遍全网都没有找到delphi android 能用的 离线人脸识别,无需注册什么开发者 有这方面需求的可以用fsdk 这边用的luxand.FSDK8.0 android下的注册号要自己找下 1,用老猫的工具将android 下的sdk,FSDK.java 编译成FSDK.jar 老猫的工具 2,用上面的工具将FSDK.jar 生成de…

小试银河麒麟系统OCR软件

0 前言 今天在国产电脑上办公,需要从一些PDF文件中复制文字内容,但是这些PDF文件是图片转换生成的,不支持文字选择和复制,除了手工输入,我们还可以使用OCR。 1 什么是OCR OCR (Optical Character Recogni…

小程序租赁系统打造便捷租赁体验助力共享经济发展

内容概要 小程序租赁系统是一个极具创新性的解决方案,它通过简化租赁过程,让物品的共享变得便捷流畅。对于那些有闲置物品的用户来说,他们可以轻松发布自己的物品,让其他需要的人快速找到并租借。而对于找东西的人来说&#xff0…