隐私计算实训营学习八:隐语SCQL的开发实践

文章目录

  • 一、SCQL使用集成最佳实践
    • 1.1 SCQL使用流程
    • 1.2 SCQL部署
    • 1.3 SCQL使用示例
  • 二、SCQL工作原理
  • 三、使用SecretNote上手体验SCQL

一、SCQL使用集成最佳实践

1.1 SCQL使用流程

SCQL使用: SCQL 开放 API 供⽤户使⽤/集成。可以使⽤SCDBClient上⼿体验(类似与Mysql Client的命令行工具);也可以基于 SCQL API 开发封装⽩屏产品,或集成到业务链路中。
在这里插入图片描述
对于SCQL来说,所有的请求都是以Query的形式去表达的,提供了同步与异步接口:

  • 用户异步提交Query,再轮询结果;
  • 同步同步提交Query,等待Query结束之后返回结果。

对于时间执行比较短的QueryDDL、DCL及小规模DQL,推荐使用SubmitAndGet()接口。对于耗时长,规模大的DQL查询,推荐使用异步接口。
在这里插入图片描述

使用流程: 系统部署、项目设置、联合分析。

项目设置:

  1. 先创建用户与项目;
  2. 给用户授权加入项目,用户可以在该项目创建表,设置CCL。
    在这里插入图片描述

1.2 SCQL部署

SCQL部署: 实际生产由多个参与方配合完成。

环境准备:

​ 机器配置:CPU/MEM 最低 8C16G

​ 机构之间的⽹络互通

镜像: secretflow/scql

SCDB(部署在可信第三方,使用其DB存储原数据): 启动:/home/admin/bin/scdbserver -config=/path/to/config.yml

SCQLEngine(部署在数据参与方,需要能够访问到用于联合数据分析的数据源): 启动:/home/admin/bin/scqlengine --flagfile=/path/to/gflags.conf
在这里插入图片描述

1.3 SCQL使用示例

SCQL使用示例:《SCQL 快速开始》⽂档:https://www.secretflow.org.cn/docs/scql/latest/zh-Hans/getting_started/quickstart

SCQL基础概念:

Project: 多个参与⽅在协商⼀致后加⼊到同⼀个项⽬中进⾏多⽅安全数据分析

参与方身份认证: 参与⽅执⾏ query 时需要进⾏身份认证

数据表管理: 管理参与分析的数据表的 schema 信息

权限信息管理: 表字段的权限信息,特别是 CCL 信息

⽤户在每次执⾏query 的时候,均需要提供上述信息,上⼿成本较⾼,因此提供了SCDB。
 

SCDB(SCQL as a Database): SCDB 遵循传统DBMS概念,将DBMS概念映射到SQCL中。

1、创建项目:CREATE DATEBASE xxx;
2、SCQL中每个用户隶属于一个参与方,目前每个参与方只允许创建一个用户,PRATY_CODE哪个参与方。
3、Table:物理表在DB里的一个映射。
4、Privilege进行授权。
在这里插入图片描述
假设有该场景:⾦融机构 Alice 想联合电商平台 Bob 做联合⽤户画像分析,Alice 希望统计不同信⽤等级,年龄在 20 岁到 30 岁之间且为电商平台 Bob 的活跃⽤户的⼈数,以及平均收⼊和平均交易额。
在这里插入图片描述
1、创建用户:建立用户和机构的绑定关系。

SCDB 内置了⼀个权限受限的 root ⽤户,⽅便系统 bootstrap:
1、root ⽤户只能做 CREATE database/user 等操作。
2、root ⽤户⽆法修改普通⽤户设置的 CCL,⽆法发起查询(DQL)。
3、root ⽤户滥⽤不会导致数据泄露。
在这里插入图片描述
Alice 和 Bob 分别创建所属⾃⼰机构的⽤户:
1、⽅式⼀:若指导root账号密码,可直接通过 root 账号创建。
2、⽅式⼆:委托可信第三方用 root 账号管理者(持有者)创建。
在这里插入图片描述
为什么创建⽤户的时候需要公钥和签名? ⽬的是防⽌伪造身份攻击,加入Alice创建用户用私钥签名create user请求,将公钥告诉SCDB,SCDB会将该公钥信息与Alice关联。此时有恶意用户Mallory冒充Bob,但不知道Bob的公私钥,只能用伪造的公私钥签名,SCDB指导公私钥是成对的,但无法识别是否为冒充的。Mallory冒充Bob发起联合查询,SCDB将其下发给SCQL Engine并带上参与方的公钥,此时比对不匹配便会拒绝执行。

通过如下程序保证伪造身份攻击⽆法导致数据泄露:

  1. 前提条件:每个参与⽅在部署SCQLEngine 节点时,需要⽣成(或提供)公私钥,并和合作⽅交换公钥,配置到引擎侧的 authorized_profile ⽂件中;
  2. SCDB 在处理 create user 请求时,会校验签名,确保请求者有对应的私钥;
  3. SCDB 在处理请求者的 DQL 时,会把请求者和查询涉及参与⽅的公钥信息⼀起下发给 SCQLEngine。SCQLEngine会先校验⾃⼰和合作⽅的公钥,如果不匹配,就拒绝执⾏。
    在这里插入图片描述2、创建项目:将参与合作方添加到项目。
    在这里插入图片描述
    3、创建表:将参与方导入联合分析的数据表。
    在这里插入图片描述
    4、设置CCL:
    在这里插入图片描述
    5、发起联合查询DQL:
    在这里插入图片描述

二、SCQL工作原理

SCDB将用户的Query翻译成执行图下发给SQCL Engine执行时,SCQL Engine如何完成执行,与SPU有什么关系?
SCQL x SPU: SCQL Engine集成SPU是将SPU当作lib用,当作C++API。
SPU前端为Tensorflow、JAX、PyTorch可以将Python的机器学习应用程序变成一个安全多方计算的AI程序去执行,SQCL直接用pphloC++的API接入的,并且使用ColocatedIO模式(数据拥有方同时作为数据计算方)。
在这里插入图片描述
以Aggregation w/group by看SCQL如何实现:
在这里插入图片描述
在明文下的基于排序的思路方案:
1、实现一张数据表k和v,k为GROUP BY k,v为要聚合的类;
2、按照k进行排序,将相同的k排序在一起进行分组,相邻在一起方便后期计算;
3、再进行分组聚合,b[i]为1表锁位置i的元素是该分组的最后一个元素,再对v进行聚合;
4、只保留b[i]为1的结果,最后进行过滤得到结果。
在这里插入图片描述
在密文下SCQL的实现方案:有4种实现,会考虑数据状态、数据分布和CLL设置选择最佳执行协议。Private groupby明文计算:性能最高,适用范围最低,要求group by的k与聚合类都属于同一个数据参与方;随后还有HESum groupby、Vertical groupby、Oblivious groupby性能越来越差而适用范围越来越广。
在这里插入图片描述
以HESum GroupBy实现举例SCQL的实现:k在Alice方,v在Bob方,序号为一一对应的。
1、Alice将数据提前分组,每个组哈希到一个gid上;此时Bob将v加密后得到密文,将密文发送给Alice;
2、Alice将属于同一个分组的加起来,如第0组,E(3)+E(10)=E(13);
3、Alice进行过滤每组只保留一个元素,同时将得到的密文发送给Bob,Bob进行解密得到结果。
在这里插入图片描述

三、使用SecretNote上手体验SCQL

使用SecretNote体验SCQL:以UI 界面的方式,上手体验 P2P 模式的 SCQL,流程与之前一致。
1、部署系统:需要先部署SCQL P2P节点部署,再安装启动SecretNote,SecretNote需要指导SCQL P2P节点端口的地址。
2、项目设置:ALICE创建项目,邀请BOB加入,两方导入各自数据表,进行CCL授权。
3、联合分析:最终进行联合分析。
在这里插入图片描述
安装部署:
在这里插入图片描述
1、部署 SCQL P2P节点

​ 单机 P2P 部署模式:https://www.secretflow.org.cn/zh-CN/docs/scql/0.5.0b2/intro/p2p-tutorial

​ 多节点 P2P 部署模式:https://www.secretflow.org.cn/zh-CN/docs/scql/0.5.0b2/topics/deployment/how-to-deploy-p2p-cluster

2、部署启动 SecretNote
在这里插入图片描述
使用示例:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/521908.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

归一化技术比较研究:Batch Norm, Layer Norm, Group Norm

归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并…

CSS - 你实现过宽高自适应的正方形吗

难度 难度级别:中高级及以上 提问概率:80% 宽高自适应的需求并不少见,尤其是在当今流行的大屏系统开发中更是随处可见,很显然已经超越了我们日常将div写死100px这样的范畴,那么如何实现一个宽高自适应的正方形呢?这里提出两种实现方案。…

【Linux】进程初步理解

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 冯诺依曼体系结构1.1 认识冯诺依曼体系结构1.2 存储金字塔 2. 操作系统2.1 概念2.2 结构2.3 操作系统的管理 3. 进程3.1 进程描述3.2 Linux下的PCB 4. task_struct本身内部属性4.1 启动4.2 进程的创建方式4.2.1 父…

JAVA:探索Apache POI 处理利器

请关注微信公众号:拾荒的小海螺 1、简述 Apache POI是Apache软件基金会的顶级项目之一,它允许Java开发人员读取和写入Microsoft Office格式的文档,包括Excel、Word和PowerPoint文件。通过POI,开发人员可以创建、修改和读取Excel…

面试(04)————JavaWeb

1、网络通讯部分 1.1、 TCP 与 UDP 区别? 1.2、什么是 HTTP 协议? 1.3、TCP 的三次握手,为什么? 1.4、HTTP 中重定向和请求转发的区别? 1.5、 Get 和 Post 的区别? 2、cookie 和 session 的区别&am…

加入酷开会员 酷开系统带你一起开启看电视的美好时光!

看电视对孩子和大人来说,都是有好处的。英国的《星期日泰晤士报》曾刊登报道:“看电视可以让小孩增长见闻,学习各种良好的社交和学习技巧,从而为他们今后的学习打下良好的基础。”而对于成年人来说,看电视也是一种娱乐…

linux 安装 pptp 协议

注意:目前iOS已不支持该协议 yum -y install ppp wget https://download-ib01.fedoraproject.org/pub/epel/7/x86_64/Packages/p/pptpd-1.4.0-2.el7.x86_64.rpm yum -y install pptpd-1.4.0-2.el7.x86_64.rpm vi /etc/pptpd.conf 去除 localip 和 remoteip的注释 …

【.Net】Polly

文章目录 概述服务熔断、服务降级、服务限流、流量削峰、错峰、服务雪崩Polly的基本使用超时策略悲观策略乐观策略 重试策略请求异常响应异常 降级策略熔断策略与策略包裹(多种策略组合) 参考 概述 Polly是一个被.NET基金会支持认可的框架,同…

SAP-MM 新增公司代码 激活物料分类账

1、OMX1 - 激活物料分类账(配置环境) 2、CKMSTART - 物料分类账的生产开始(生产机运行) 不激活创建物料时会报错:估价范围还没有生产式的物料账簿 执行后结果: 以上~~

creo扫描杯子学习笔记

creo扫描杯子学习笔记 扫描2要素: 轨迹, 截面。 多用于曲线扫描,区别于拉伸命令。 大小自定 旋转扫描 抽壳 草绘把手 扫描把手 复制曲面 实例化切除 成型

Web爬虫

📑前言 本文主要是【Web爬虫】——简单使用的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 🌄每日一句&#…

PHP实现网站微信扫码关注公众号后自动注册登陆实现方法及代码【关注收藏】

在网站注册登陆这环节,增加微信扫码注册登陆,普通的方法需要开通微信开发者平台,生成二维码扫码后才能获取用户的uinonid或openid,实现注册登陆,但这样比较麻烦还要企业认证交费开发者平台,而且没有和公众号…

区域自动气象站讲解

TH-QC10当我们每天查看天气预报,安排出行计划,或是在户外活动时关注天气变化,很少有人会想到这一切背后默默付出的“英雄”——区域自动气象站。这些看似不起眼的气象监测设备,却在我们日常生活中扮演着至关重要的角色。今天&…

【话题】程序员35岁会失业吗?

大家好,我是全栈小5,欢迎阅读小5的系列文章,这是《话题》系列文章 目录 背景招聘分析一、技术更新换代的挑战二、经验与技术的双重优势三、职业发展的多元化选择四、个人成长与职业规划的平衡五、结语文章推荐 背景 35岁被认为是程序员职业生…

【OJ】stack刷题

个人主页 : zxctscl 如有转载请先通知 题目 1. 155. 最小栈1.1 分析1.2 代码 2. JZ31 栈的压入、弹出序列2.1 分析2.2 代码 3. 150. 逆波兰表达式求值3.1 分析3.2 代码 1. 155. 最小栈 1.1 分析 利用两个栈,一个栈a负责入数据和出数据,另一个…

分类预测 | Matlab实现DRN深度残差网络数据分类预测

分类预测 | Matlab实现DRN深度残差网络数据分类预测 目录 分类预测 | Matlab实现DRN深度残差网络数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现DRN深度残差网络数据分类预测(完整源码和数据),运行环境为Matl…

合宙开发板Core_Air780E测试AT指令

一、官方资料 CORE-AIR780E 开发板是合宙通信推出的基于 Air780E 模组所开发的,包含电源,SIM 卡,USB,天线,音频等必要功能的最小硬件系统。以方便用户在设计前期对 Air780E 模块 进行性能评估,功能调试&…

CUDA10的安装

1、因为要用到tensorflow1.15.5的GPU版本,所以想安装cuda10来进行加速,通过nvidia-smi检查本机上的CUDA版本 2、下载的cuda10版本,cuda_10.0.130_411.31_win10.exe 下载的cudnn版本,cudnn-10.0-windows10-x64-v7.6.4.38.zip 然后…

mathtype如何嵌入到word中?mathtype 7永久激活码密钥及2024最新序列号附安装教程

将MathType嵌入到Word中的方法主要有三种,分别是: 通过加载项嵌入MathType。首先,在Word中点击“文件”按钮,选择“选项”,然后选择“加载项”一栏,找到MathType相关的加载项并勾选,点击“确定…

20240404这个数字有什么特点吗?

今天是2024年的清明节,20240404这个数字让我提出了一个疑问,它是否有什么含义或者特点呢? 首先,如果把它拆分为两个整数的平方和,会怎么样呢? 于是,我一顿操作猛如虎,搞出了这么个…