2.6.1. 隐私计算技术解决什么问题?
本聪老师:关于隐私计算,我想先问大家一个问题:隐私计算技术能够解决什么问题?
小明:是不是应该是保护用户的隐私。
本聪老师:可以这么说,但是怎么保护呢?或者说它的适用场景是什么呢?说说我的个人理解,我认为主要目的是解决三个问题,就是数据共享过程中的“不能给,不敢给,不愿给”这三个问题。
小天:怎么理解这三个问题?
本聪老师:不能给是没有基础数据治理能力,没有能力共享数据。不敢给是数据共享后,自己不可控,会存在数据泄露,没有手段能够自证清白。不愿给是没有好的数据共享技术,数据价值没有量化,共享不共享,共享多少没有标准,没有激励机制。隐私计算技术能够解决不能给,不敢给的问题,不愿给的问题可以通过隐私计算与区块链技术一起来解决。
小云:似乎有点明白了。有数据共享才有隐私保护,具备隐私保护能力之后才能实现数据可靠共享。
本聪老师:对,我们首先明白了隐私计算技术的适用场景,才能进一步了解这个技术。
2.6.2. 隐私计算技术分类及发展方向
本聪老师:我们利用分类这种学习方法,通过这张图2-15,梳理一下隐私计算技术的流派,或者说不同技术的特点。大家先看下这张图,看是从哪些角度进行分类的。
图2-15 隐私计算技术分类[图片借鉴奇安信会议分享内容,如有侵权,请联系删除]
小明:好像横坐标是数据流动性,纵坐标是数据计算方式。
本聪老师:对。横坐标是原始数据流动程度,左边的技术是原始数据需要流动才可以实现,右边是不需要数据离开数据本地。纵坐标是计算技术的中心化程度,下面是倾向于去中心化,或者分布式,上面是倾向于中心化的计算方式。
小明:明白了。
本聪老师:我们从坐标系的第三象限开始,因为隐私计算这门技术就诞生在这里。业界认可的隐私计算诞生源自华裔科学家姚期智院士最早在1982年提出的百万富翁问题。
小天:我知道清华有个姚班,就是姚院士名字命名的。
小明:还有个智班,也是以他的名字命名的。
本聪老师:对,姚班是计算机科学,智班是人工智能专业,都是国内顶级本科专业。我们先看多方安全计算,以姚期智院士的混淆电路等为代表,还包括不经意传输,秘密分享,零知识证明等技术,多方安全计算近几年发展非常迅速,原理就是所有参与方共同为一个函数输入数据,然后共同计算函数结果,又能保证这些输入内容不泄漏。主要特点就是数据加密不会泄露隐私,在安全域内流动,经过建模,计算,最后数据的价值流出安全域,将数据变成资产,进行交易。
小云:这里的概念有些多。
本聪老师:对,初入一个领域都是这样,学习方法是粗线条梳理结构,关注重点概念。然后逐渐由浅入深。我们这里先大致了解这些技术都能做什么,然后根据需要重点深入学习。混淆电路通过将两方参与的安全计算函数编译成布尔电路,并将电路的真值表进行加密、打乱,就能保证电路的正常输出而又不泄露参与计算的双方私有信息。秘密共享类似于将所有的秘密分割交给不同的参与者来保护隐私,只有足够多的参与才能恢复秘密。不经意传输和零知识证明我们一会详细介绍一下。
小云:好的,明白一些了。
本聪老师:我们再来看第四象限,联邦学习是以谷歌为代表的倡导者,基本原理是各个节点从服务器下载预测模型,使用本地数据进行模型训练,然后再将模型上传服务器,服务器综合节点训练的模型继续优化训练模型,再下发给节点,该过程多次重复。
小明:联邦学习与其他的区别是什么呢?
本聪老师:联邦学习的主要特点就是我们刚才提到的源数据不动,模型动,所以不会泄露数据隐私。我们继续适用分类这个工具,联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习。横向联邦学习适用的场景比如西安银行和宁波银行,用户id基本没有交集,但是用户特征重叠度较高。纵向联邦学习相反,比如西安银行与西安移动,用户id重叠,但是业务特征不太重复。
小云:我觉得联邦学习更适合分布式的网络环境吧。
本聪老师:对,这个就是区块链与隐私计算的结合点。下面再来看第二象限,这里提到有差分隐私,差分隐私简单说就是在原始数据中“掺沙子”,通过在数据或者计算结果上添加一定强度的噪声,来保证用户无法通过数据分析结果推断出是否包含某一特定的数据。
本聪老师:同态加密就是用技术方式,在不影响数据运算结果的前提下将数据变为密文,进行计算,输出结果,这也就不再涉及隐私的问题,而不同的加密技术允许不同的运算规则。同态加密分为部分同态加密和全同态加密,部分同态加密支持的算法有限,全同态加密理论上没有算法和深度限制。
小明:同态加密这样对算力要求比较高吧?
本聪老师:是这样的。所以同态加密效率是所有算法中最低的。最后是第一象限,隐私计算技术中最中心化的就是可信计算平台,又叫机密计算,是通过硬件环境,也叫可信执行环境,简称TEE。主要是几大芯片厂商,在自己的芯片中添加一个安全可控区域,这个区域与操作系统,Hypervisor,内存、硬盘以及云平台都是完全隔离的。计算过程在这个区域进行,计算结果只能通过授权的应用传输出去,特别适合密钥产生和管理这样的场景。具体来讲,Intel的TEE技术是 SGX、ARM 是TrustZone , AMD是 SEV。
小天:听完了,有些大致了解。
本聪老师:那么我们再采用目前隐私计算业界常用的分类梳理一下,简单来讲,与密码学相关,多方参与的,都归于多方安全计算,联邦学习是单独一类,它是数据不出本地的,第三类就是中心化的基于硬件的可信执行环境。
小云:这些技术发展成熟度怎么样了?
本聪老师:隐私计算这些技术发展有快有慢,也各有自己擅长的适用场景和优缺点。从性能来讲,多方安全计算、同态加密、零知识证明性能还有待提升,目前对计算量需求较大。TEE、联邦学习等性能高一些。从中心化程度,TEE应该是最高的,其他技术都没有绝对中心化的需求。
本文内容摘自《对话去中心化数字身份》。作者:乔布施。首发平台:https://ytm.app
欢迎转载,请注明出处及作者。