数据要素的大海,如何流向千行百业?

文|白    鸽

编|王一粟

当数智化的风吹向银行业,是从底层数据的融合开始的。

在银行风控场景中,一个人想要进行风险投资或借贷,银行往往会评估这个人的信贷和风控策略。在以往的办理模式中,会需要办理人提交各种资料,但也无法对其情况进行更精准判断。

但如果多家银行能够合规共享这个人的相关数据,那么这个人在多家银行的的信用和风险数据就可以被精准融合分析,针对这个人的信贷和风控策略也就会更准确。

这就是数据流通的价值。当前,数据正在成为新质生产力,数据流通的价值也正在被深度挖掘。

据5月24日举办的数字中国峰会上发布的《数字中国发展报告(2023)》显示,2023年我国数据生产总量达32.85ZB,同比增长22.44%。

国内众多企业也纷纷开展相关布局,如电信构建了“数链智网(DCAN)”数据要素能力体系,华为打造了数据要素流通解决方案参考架构等。

“现阶段各行业对数据的需求正在急剧提升,但数据要素一定要跨域流转,才能够释放更多的价值。”蚂蚁集团副总裁、首席技术安全官韦韬说道。

然而,数据想要真正以要素的形态进入市场,在主体间进行流转,也面临着诸多挑战。

其中,数据流通中的安全、成本和易用性,像一个「不可能的三角」。想要打破这个三角,需要一个有力的方式破局。

技术层面,韦韬认为,未来数据要素在外循环流通过程中,基于密码学与可信的密算技术,将为数据可信流通提供全流程保障。密态计算,将是数据要素流通的必经之路。

现阶段,密态计算整体的技术发展基本已经成熟,而随着行业对数据流通价值需求的不断爆发,可以说万事俱备,只差成本和易用性的东风。而这股东风,需要借助市场机制及产品标准化能力。

于整个行业而言,接下来要做的,就是降低技术成本,推动数据大规模可信流转,从而通过低成本的密态计算技术,让数据价值像自来水一样即开即用。

数据流通从局部到广域

隐私计算关键“管道”技术

数据要素要“用得好”,关键是“流得动”。

蚂蚁集团董事长兼CEO井贤栋以城市自来水网来打比方,数据要素的流通发展,就像城市自来水网的发展一样,会经历四个阶段:

第一阶段,原始的数据孤岛,企业拥有数据自研能力,自产自销,就像自家水井;

第二阶段,实现数据要素点对点流通,就像桶装水,基础设施不完善,流通的范围也有限;

第三阶段,数据要素在行业和区域进行可信流转,就像城市自来水网;

第四阶段,数据广域可信流转,好比综合水利工程,实现跨行业、跨地域和跨云可信流转和互联互通,真正普惠千行百业。

目前,数据要素流通正在迈向第三阶段,也就是实现行业和区域间的可信流转。

在前两个阶段中,数据流通往往采用传统的数据交易方式,通常是基于对主体的信任,双方之间用明文数据流通,“直接拷贝一份或者接个API”,也就是用裸露的明文数据去共同计算、合作。

这种方式数据价值全面且成本低,但风险很高。韦韬表示:“数据本身的复制成本非常低,明文数据很容易造成二次分发,一旦分享出去就容易失控。”

数据在脱离自身控制后,对方是否会任意复制、是否会交给第三方、是否会将这些数据用于违法犯罪,这些问题变成了一个未知。

过去在各类安全标准未完全完善的情况下,数据交易中出现信息泄露以及其他合规风险的可能性较大,这也导致产业链相关方存在“不敢流通”、“不会流通”、“流通不起”等问题,大大抑制了数据要素的流通性。

随着 “数据二十条”等引导、规范数据要素流通的政策文件落地,各领域对数据要素的需求全面爆发,而随着数据资源开发能力的持续增强,也为智慧城市建设运行、工业互联网开发利用、金融行业等数智化应用提供了丰富的“原料”。

在2024年数字中国建设峰会上,国家数据局会同多个部门发布了首批20个“数据要素X”典型案例,涵盖了工业制造、现代农业、商贸流通、交通运输等12个行业和领域,通过典型经验做法,进一步促进数据要素开发利用。

但数据要素的流通依然面临非常多的挑战,尤其是涉及到数据隐私安全等问题。那么,如何才能实现数据在行业和区域中进行可信流转,最大化发挥数据要素价值?

推动数据要素从局部流通,进入到广域流通,隐私计算是关键的“管道”技术。

在韦韬看来,数据只有以密态形式的流通,保障存储、计算、运维、研发,直到销毁全链路的控访,才能实现有效的流转,并兼顾好安全和发展的诉求。

为什么密态计算能够解决数据流转过程中的安全问题?

蚂蚁集团隐私计算部隐语总经理王磊解释道,密态计算的本质逻辑,是机构一将数据通过密态环境给到机构二。在这个密态环境中,机构二知道有这部分数据,且能够使用这部分数据,但在使用的过程中,机构二并不能够看到这些数据。

因此,机构二只能够按照双方约定方式使用数据,且其通过加工后的数据也只能存放到密态环境中,并不能够随意取用,只有当双方经过严格数据确权后,数据衍生产品才能够成为明文数据析出。

“密态计算,实际上就是把对人的信任转移到对技术的信任,从而实现数据跨主体流通过程中跨域管控的问题。”王磊如此说道,通过利用密态计算技术,实现数据密态流转,做到数据“可用不可见,可控可计量”。

密态计算解决了数据流通中的安全问题,但迈向数据密态时代的过程中,在保证多方数据安全的前提下,如何实现相对低成本门槛的数据价值合作,则也成为推动数据要素大规模流通的关键。

成本和价值的性价比

是数据流通的关键

当前,由数据泄漏造成的安全成本增加问题正日益严重。

据IBM《2023年数据报告》显示,2023年数据泄露的全球平均成本上升至445万美元,达到历史新高,比2022年的435万美元增加了2.3%,比2020年的386万美元增加了15.3%。

数据泄漏会导致企业数据资产的丢失,为企业造成严重的网络安全危机,从而带来成本的增加。

但现如今问题在于,网络安全技术成本非常高昂,致使行业中对安全技术的投入较低,无法为数据流通提供足够的安全保障。

“现实是,只有约三分之一的企业能够通过自己的安全团队发现问题,大部分公司都无力组建能够跟黑产对抗的安全团队。”韦韬说道。

因此,如何平衡安全技术的成本和数据价值,让密态技术能够更好的为数据流通做底层安全保障,则成为推动数据大规模流转的关键。

一个商品,只有在成本降到一定程度时,才能大规模普及。在数据要素的流通中,亦是如此。

韦韬认为:“数据要素在行业大规模应用和大规模推广的时候,最后一定是要把正向的业务价值和负向的风险综合考虑,让行业的费用达到最优解。”

而能够平衡技术成本和数据价值应用之间的关键,则在于市场的问题需要交给市场解决。

以美国为例,美国公司在进行数字化贸易合作过程中,会要求合作的公司购买网络安全保险,这其实是一个数据流通安全险。

如果在数据流通过程中,合作的公司在数据安全保障中做的比较好,这部分保费就会比较低,后续如果数据流通安全做的不好,风险较高,则保费费用会不断提高。

美国其实是通过一个市场化的机制,来让数据流通的价值与成本实现一种平衡。“这是整个市场自发的调节机制,推动行业在安全方面做更多的投入,最后达到一个综合性的最优。”

因此,韦韬表示:“实际密态计算成本能够控制在数据流通价值的5%以内,就可以达到非常好的阶段,相关数据方也非常愿意把数据拿出来。”

在一个尚未市场化的场景中,5%这个数据是怎么计算得来的?

韦韬解释道,这个数字,来源于安全保险行业的多年实践。美国保险市场发展比较成熟,尤其是在网络安全保险上,其最终要对效果负责,毕竟要真金白银做赔偿。

因此,美国保险的保费费率,是基于对安全技术水平的评估。

目前美国保险保费费率在2%-20%之间,综合大概在10%左右。但当安全工作没做好,风险控制不及预期的时候,往往会上升到10%,甚至到20%以上。

当使用密态技术时,风险会显著降低。目前美国保险公司已基本采用密态技术做相关费用评估,可以实现保费控制在2%以内,整体低于7%。

这也就会让行业对数据流通过程中的安全问题没有后顾之忧,毕竟有保险可以兜底。

“在金融行业,我们的密态计算成本已经低于5%,达到非常好的效果。”韦韬对光锥智能说道,“在不同的领域,随着技术的提升,成本都会逐渐下降,只要其成本低于领域数据流通价值的5%,就可以触发明文数据的密态流通,激发未来数据价值更好的流通和利用。

隐私计算发展至今,最初纯密码学体系的存算成本非常高,体现在数据交易上,则是其在数据流通价值中的占比会非常高,数据流转和交易的成本就非常高。

现如今,随着密态技术的发展,低成本的密态技术能够不断降低数据交易成本,最终则可以让数据价值像自来水一样即开即用。

当密态计算“遇上”云

除通过技术的提升降低成本外,将技术产品化,让千行百业应用起来,也是关键。事实上,密态技术在行业中的应用,也经历了从PoC到规模化应用的阶段。

以蚂蚁集团为例,其早在2016年就开始布局隐私计算技术及规模化应用实践。

2016年-2018年,蚂蚁集团主要做前瞻性的技术布局,此时并未有很多的应用场景出现;2018年-2022年,则开始在中国农信、浦发银行等金融场景中落地一些PoC案例。

2022年至今,得益于国家数据要素市场化大规模的推进,整个数据安全需求开始爆发,隐私计算技术也逐渐开始进行规模化落地应用。

在这一阶段,蚂蚁集团的隐私计算技术在新能源、金融、保险等场景都落地数十家公司。如在金融风控场景中,基于蚂蚁隐私计算技术将多家银行数据进行安全的融合,能够更好的提升风控效果。

规模化落地的背后,源于蚂蚁集团围绕数据要素流通构建的全链路解决方案,包括 “隐语”可信隐私计算开源技术框架,及“星绽”可信执行环境操作系统Occlum等。

这其中,隐语是一个非常重要的开源产品,它能够通过统一的架构、原生应用、开发拓展、性能卓越等特性,显著降低用户使用成本。

比如在统一的架构下,用户能够在不同的场景中,让用户使用不同的技术路线,从而降低需要不同场景切换不同技术路线的成本。在开放拓展下,隐语通过采用模块化设计,可以让用户不需要使用隐语整个产品体系,而是按需使用,并根据场景做定制化设计。

现阶段,隐语已经助力多个场景的数据安全流转与融合。

如在新能源车保险定价场景中,由于缺少新能源汽车产品数据,为了后续不出现亏损,新能源车的保费一般都会略贵于燃油车。蚂蚁集团通过隐语将多方数据安全汇总到一起,并进行分析,能够为保险公司提供更精准的定价。

“目前已落地十多家保险公司,促使新能源车平均保费下降了8%。”王磊如此说道。

在农村金融中,针对农村用户的信贷问题,由于缺乏数据,导致银行无法精准判断客户风险,致使农村金融批贷的时候规模受限。通过密态计算,蚂蚁集团将农业农村部大数据发展中心与网商银行数据做了安全融合,实现了农村金融的秒贷秒批。

截至2024年5月初,已经有超过600万种植户获得贷款额度,其中78.3%农户种植面积不到10亩,是以往金融服务难以覆盖的人群。

虽然隐私计算技术已经进入规模化应用阶段,但从数据流转的角度来看,其还停留在固定场景之中,并未实现从点对点桶装水,到区域和行业城市自来水网的可信流转。

“2024年开始,我们希望通过密态计算技术构建数据可信的流转体系,能够让数据要素像自来水一样开箱即用。”王磊说道,“但想要数据真正实现在大范围内的可信流通,还需要体系化的去解决这里面存、算、研、治、用等全流程的安全问题。”

也正因此,近日蚂蚁还首次对外披露“隐语Cloud”密态计算云服务,可以让企业像购买云服务一样购买隐私计算服务,支持数据跨云跨端可信流通,相关产品和服务将在今年内陆续发布。

已经有了隐语这一开源产品,为什么蚂蚁还要做密态计算云服务?

以金融行业为例,之前数据的使用流转都是点对点,但随着行业的发展,其瓶颈也会非常明显。而数据上云之后,除了规模的优势,还可以实现数据“存算联”的智能使用。

同时,也只有做到数据全链路的安全、高效使用,数据才有价值。“隐语Cloud云服务平台就是是希望去解决数据‘大规模’可信流通的问题。”王磊说道。

据介绍,“隐语Cloud”将围绕数据流转全链路提供数据密算服务、大模型密算服务、密态数据托管、密态数据研发等服务,具有“按需获取、即开即用”特点,让中小微企业也可以低成本地获得密算服务,降低技术门槛,打开产业协作空间。

同时,隐语Cloud也将带来三个核心价值:

一是跨云跨端,通过统一的密算服务打通多云和多端的物理边界,在空间上让数据能够延展到各个地域;二是全生命周期可信,即从数据的采集、使用一直到数据的销毁,在数据的全生命周期中,通过可信的技术与参与管控的能力,确保这些数据在整个时间维度的生命周期中可信可控。

三是成本可控,如果需要大规模的应用支持大规模的可信流通,低成本和高性能是它必不可缺的能力。王磊表示:“通过软硬结合的方式,我们希望密态计算的成本能够缩小至明文计算的2—10倍,性能能够逼近明文的1/2—1/10。”

云计算是数智化时代的算力底座,数据从点对点的流转,到最终大规模的可信流转,必然离不开云的支持。同时,随着大模型时代的到来,数据要素流转价值的需求进一步爆发。

大模型时代

数据的永动机

大模型的到来,让数据流通的需求进一步提升。毕竟,高质量的数据是大模型迭代升级的关键。因此,越到后期,数据的瓶颈就会让大模型对数据的价值更加重视、甚至是渴求。

事实上,在早期人工智能发展过程中,AI虽然也是通过大量数据进行学习,但这些数据必须先经由人类进行分类和标注才能使用。“有多少人工,就有多少智能”也成为当时的真实写照。

在进入大模型时代,基于AI能力能够更快更高效的获取高质量数据后,更重要的则是需要打破数据孤岛,让更多的数据流动起来,才能够产生更高的价值,从而促进整个行业发展。

以医疗行业为例,现阶段各个医院的数据都相对独立,如果有一个全医疗行业的数据集,汇总所有医疗行业相关数据资源,并能够在保证数据隐私安全的前提下,公开给行业使用,这将大大提升整个行业的效率。

如果说大模型是一个动力机,那么依托隐私计算的数据,就是保证动力机源源不断升级、发电的高质量燃料。未来,还需要不断释放我国海量数据和丰富场景优势潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/659316.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java设计模式-活动对象与访问者

活动对象 Java设计模式中,活动对象是指一个对象始终处于活动的状态,该对象包括一个线程安全的数据结构以及一个活跃的执行线程。 如上所示,ActiveCreature类的构造函数初始化一个线程安全的数据结构(阻塞队列)、初始化…

微信小程序毕业设计-农场驿站平台系统项目开发实战(附源码+论文)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

8086 汇编笔记(二):寄存器(内存访问)

一、内存中字的存储 字单元的概念:字单元,即存放一个字型数据(16 位)的内存单元,由两个地址连续的内存单元组成 由上一章学习可知:高地址内存单元中存放字型数据的高位字节,低地址内存单元中存放字型数据的低位字节 …

数字资产革命:Web3带来的新商业机会

随着区块链技术的不断发展和普及,数字资产正逐渐成为全球范围内的热门话题。作为区块链技术的重要应用之一,Web3正在带来一场数字资产的革命,为传统商业模式带来了全新的机遇和挑战。本文将深入探讨数字资产革命与Web3的关系,探索…

数据分析之统计学基础

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。 …

如何批量结构化分汇多工作表sheet?

目录 一、如遇合并表格,注意结构化二、确认主键,合并所有文件数据三、sheet2同理四、案例总结 如果遇到这样情形,多文件夹多文件,多工作表的分汇场景;可以参考以下方法解决。 一、如遇合并表格,注意结构…

汇编原理(四)[BX]和loop指令

loop:循环 误区:在编译器里写代码和在debug里写代码是不一样的,此时,对于编译器来说,就需要用到[bx] [bx]: [bx]同样表示一个内存单元,他的偏移地址在bx中,比如下面的指令 move bx, 0 move ax,…

IAR9.30安装和注册相关

下载解压licpatcher64工具,把licpatcher64.exe拷贝到IAR的安装目录中双击运行。 示例IAR9.30.1默认安装如下如下,一共三个分别拷贝运行,不要遗漏。 C:\Program Files\IAR Systems\Embedded Workbench 9.1\arm\bin C:\Program Files\IAR Syst…

一书读懂Python全栈安全,剑指网络空间安全

写在前面 通过阅读《Python全栈安全/网络空间安全丛书》,您将能够全面而深入地理解Python全栈安全的广阔领域,从基础概念到高级应用无一遗漏。本书不仅详细解析了Python在网络安全、后端开发、数据分析及自动化等全栈领域的安全实践,还紧密贴…

系统与软件工程软件测试过程

系统与软件工程 软件测试 测试过程 ;对应的国标是GB/T 38634.4 2020 ,该标准的范围规定适应用于治理、管理和实施任何组织,项目或较小规模测试活动的软件测试的测试过程,定义了软件测试通用过程,给出了描述过程的支持信息图表。 一 术语和定义 1.1实测…

力扣hot100:23. 合并 K 个升序链表

23. 合并 K 个升序链表 这题非常容易想到归并排序的思路,俩升序序列合并,可以使用归并的方法。 不过这里显然是一个多路归并排序;包含多个子数组的归并算法,这可以让我们拓展归并算法的思路。 假设n是序列个数,ni是…

这么多不同接口的固态硬盘,你选对了嘛!

固态硬盘大家都不陌生,玩游戏、办公存储都会用到。如果自己想要给电脑或笔记本升级下存储,想要存储更多的文件,该怎么选购不同类型的SSD固态盘呐,下面就来认识下日常使用中常见的固态硬盘。 固态硬盘(Solid State Drive, SSD)作为数据存储技术的革新力量,其接口类型的选…

5.25.6 深度学习在放射图像中检测和分类乳腺癌病变

计算机辅助诊断 (CAD) 系统使用数字化乳房 X 线摄影图像并识别乳房中存在的异常情况。深度学习方法从有限数量的专家注释数据中学习图像特征并预测必要的对象。卷积神经网络(CNN)在图像检测、识别和分类等各种图像分析任务中的性能近年来表现出色。本文提…

VSCode连接远程服务器使用jupyter报错问题解决

目录 一. 问题描述二. jupyter环境确认三. 插件安装 一. 问题描述 经常会遇到一种问题就是, VSCode连接远程服务器, 上次jupyter notebook 还用的好好的, 下次打开就显示找不到内核了. 今天提供了全套解决方案, 帮大家迅速解决环境问题. 二. jupyter环境确认 首先进入自己需…

OPPO Reno12系列发布:用它玩游戏比凉茶还要“凉”

在这个智能手机市场日新月异的时代,每一次新品发布都牵动着无数科技爱好者的心。最近,OPPO官微传来好消息,即将推出的OPPO Reno12系列不仅搭载了顶尖的旗舰芯片,还与联发科天玑强强联手,进行了深度的优化调校&#xff…

【408真题】2009-21

“接”是针对题目进行必要的分析,比较简略; “化”是对题目中所涉及到的知识点进行详细解释; “发”是对此题型的解题套路总结,并结合历年真题或者典型例题进行运用。 涉及到的知识全部来源于王道各科教材(2025版&…

Honor of Kings 2024.03.29 Ban for 3 day

我又被举报消极然后禁赛 都说了别选蔡文姬,对面三个肉,非要选个软辅助 吐槽下这游戏策划:游戏体验感越来越差,公正也很差 对说了对面4个法师,就是不出魔抗,把把都是0-N开局,到底谁消极啊&#x…

apexcharts数据可视化之圆环柱状图

apexcharts数据可视化之圆环柱状图 有完整配套的Python后端代码。 本教程主要会介绍如下图形绘制方式: 基础圆环柱状图多组数据圆环柱状图图片背景自定义角度渐变半个圆环图虚线圆环图 基础圆环图 import ApexChart from react-apexcharts;export function Cir…

基于jeecgboot-vue3的Flowable流程-我的任务(一)

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 1、首先可以用现成生成代码的前端来做这个,只要做一些调整就可以了,这样利用现有的一些模板可以快速构建我的任务,否则vue2与vue3相差太大,移…

将文件批量重命名001到100?怎么批量修改文件夹名字?这四款工具不要错过!

你们有没有遇到过需要批量修改文件(文件夹)名的情况?从网上下载一些文件都会带有一些后缀名字。大量的文件,一个一个修改重命名的话,这简直是个头疼的事情。市面上虽然有很多批量文件重命名工具,但要么收费…