对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠

随着数字经济的不断深入,数据作为一种全新的生产要素成为影响市场的重要因素。在当下最火热的大模型创业潮之中,优质的数据是影响大模型训练效果关键之一,以往积累的稀缺行业数据甚至构成了部分公司的强有力壁垒。


2023世界人工智能大会“数据要素与隐私计算高峰论坛”期间,蚂蚁集团副总裁、首席技术安全官韦韬在机器之心专访中谈到,在正规的数据交易链条中,通常为加强交易双方的技术信任,数据持有方会采用可信隐私计算的技术来对数据实现“可用不可见”,在让数据产生价值的同时规避信息泄露等问题。数据流通整个行业正在迈向数据密态时代。


2023世界人工智能大会“数据要素与隐私计算高峰论坛”,韦韬发表主题演讲


正是由于数据的复制成本极低,过去在各类安全标准未完全完善的情况下,数据交易中出现信息泄露以及其他合规风险的可能性较大,产业链相关方“不敢流通”、“不会流通”、“流通不起”,大大抑制了数据要素的流通性。


而如果要实现数据要素自由流通、最大化发挥数据要素的价值这样的愿景,数据需要密态流转。迈向数据密态时代,数据与数据间应当在一个足够安全的流转网络中流通,在能保证多方数据安全的前提下,实现相对低成本低门槛的数据价值合作。


韦韬在专访中向机器之心介绍了“密态天空计算”的概念,这个概念从加州大学伯克利分校的两位计算机科学教授Ion Stoica和Scott Shenker提出的“天空计算(Sky Computing)”发展而来。


From cloud computing to sky computing.Ion Stoica, Scott Shenker HotOS, 2021

“密态天空计算”是指基于技术信任的数据跨云互联,提供数据的跨云密态流转和计算服务,其目标是允许基于数据密态的应用能跨多个云厂商运行。简单来说,在密态天空计算技术的支持下,可以构建起一个在多云环境下安全可信的互联互通的数据密态流转网络,网络上各个节点方能够通过密态计算因子便捷、安全地进行数据流通融合。


韦韬提到,随着互联互通的密态天空计算网络逐步建设完善,数据要素流通就可以逐渐突破“不敢用、不会用、用不起”的局限,可信隐私计算将变得更加平等普惠,更多的数据可以参与流通,创造更大的价值。

明文数据交易的失败


在银行风控场景,如果多家银行能够合规共享数据,那么一个人在多家银行的信用和风险数据就可以被精确融合分析,针对这个人的信贷和风控策略就更准确。这就是数据流通的价值。


在传统的数据交易方式下,双方之间通常用明文数据流通,“直接拷贝一份或者接个API”,也就是用裸露的明文数据去共同计算、合作。这种方式数据价值全面且成本低,但是容易被二次拷贝,数据滥用和泄露的风险极高。

2021年《数据安全法》与《个人信息保护法》正式实施以后,企业如何获取、使用数据、处理个人信息的边界被明确规定。其中,《个人信息保护法》提到,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。


这也意味着,交易含有未被合法授权却能够对应识别到自然人相关身份信息的明文数据,变成一个违法操作。如果说在法律出台以前,仍有灰色地带,在2021年之后,合规数据交易的边界变得更加清晰了。


韦韬对机器之心表示,整体上数据交易行业的困难在于难以确权以及难以定价。而明文数据的交易方式除了有较大的合规风险,另一个致命问题在于容易失控。


“数据本身的复制成本非常低,很容易造成二次分发,一旦分享出去就容易失控”。数据在脱离自身控制后,对方是否会任意复制、是否会交给第三方、是否会将这些数据用于违法犯罪,这些问题变成了一个未知。


另外,由于合作双方可通过明文数据推演出对方数据资产状态,获得客户触达方式和敏感隐私数据甚至攫取对方流量资产,由此引发的敌意、不信任、不放心会极大影响数据交互双方合作意愿,进而影响了数据要素的流通与价值的盘活。


更重要的是,“数据变成了你有我有大家有,因此数据的价值系统也会紊乱”。数据的价值在于稀缺的信息,但是明文流通且可以随意复制,让数据的定价变得更加失序。


在可能“违规”、“泄密”、“价值被破坏”的风险下,明文数据的交易方式一定程度上抑制了数据交易市场的发展。更多的数据持有方变得更加谨慎,不愿流通、不敢流通。


密态计算成为迫切需要


那么,有没有办法可以在保证合规的基础上,实现数据流通?


对于想要共享数据获得更精准用户特征的银行来说,怎样才能保证共同训练的过程中,不会泄露用户的个人身份信息,同时保证自己的数据在跨主体流转融合后,仍然能在传播中不失控,最终仍然可以通过计算得到自己想要的结果?


韦韬称,目前解决这一挑战的主要方向是利用可信隐私计算技术,实现数据密态流转,做到数据“可用不可见,可控可计量”。


与数据的明文传播做对比,可信隐私计算技术能够支持数据加密流转。数据密态即在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态,不出现明文数据失控,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。


本质上,可信隐私计算是以技术的方式帮助数据交易双方实现信任。基于这样的技术信任机制,可信隐私计算能够实现数据的跨域管控。当数据流转到其他域中,依然可以对它进行管控,使得持有权不失控。因此,数据要素的提供方以及相关加工处理方均能得到收益。


随着数据要素在国家战略层面上受到越来越多的重视,过去两年,数据要素市场的相关政策加速出台,为数据要素行业厘清了更多边界——


2022年,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”),明确提出要“建立合规高效、场内外结合的数据要素流通和交易制度”,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架,构建中国特色数据产权制度体系。


在法律以及行业标准逐渐清晰的基础上,密态计算技术的市场需求开始爆发。蚂蚁隐私计算专家霍传冰发现,相比于2021年,“2022年后来到公司咨询的客户转化率(从线索到销售)同比增长了10%”,为实际需求买单的客户越来越多了,蚂蚁可信隐私计算业务的落单量同比迎来了大幅提升。


另外,可信隐私计算技术的逐步成熟也增强了市场上数据持有方的信心。在可信隐私计算技术的加持下,一些高价值的数据,比如医疗、金融、保险、政务等行业,开始逐步释放自己数据的价值。


国家工业信息安全发展研究中心测算数据显示,2023年国内数据要素市场规模将破千亿,2025年市场规模将达到1749亿元,“十四五”期间市场规模复合增速将达到26.3%,整体进入高速发展阶段。


未来的技术基础设施


在韦韬看来,整个数据密态化时代的发展,将经历计算密态化、大数据密态化、数据要素密态化三个阶段:



首先是计算密态化时期,联邦学习、MPC等隐私保护计算技术快速发展,将明文数据流转变成了密态数据流转,保证安全合规以及试点验证。


其次是大数据密态化时期,大数据平台从明文计算迈进密文计算,丰富的中间结果以密态形式存在,数据持有权与使用权分离,行业发展的重点是实现可信隐私计算技术的可用易用,降低门槛。


最后是数据要素密态化时期,全行业数据密态流通,多方异构互联,中长尾流通的难题被解救,密态天空网络搭建成功,做到使用成本降低,广域普惠。


韦韬判断称,当下我们正处于从第一阶段向第二阶段迈进的时期,在该阶段,各个机构开始全面使用密态计算获得收益,无论是要处理的数据规模还是复杂程度将远高于第一阶段。


“更具体的,是要解决大数据技术生态和AI技术生态的密态化技术升级问题,特别是如何让现有的广大的一线大数据和AI工程师们能够便捷的用上密态化技术能力?如果只能依靠少数同时精通隐私计算和大数据技术的行业专才重人力投入的话,那么是无法支持全行业数据要素转型的迫切需求的。”


经过推演,韦韬认为在下一个阶段的重要任务是需要通过密态即服务(Cryptographic Computing as a Service,即C²aaS)、技术开源等方式,降低技术门槛,推动大数据和AI技术密态化。


“因为一开始密态化转型的技术难度非常高,行业这方面的专才非常稀缺,因此只有少数头部企业在高价值数据的场景下才能有足够的人才和资金去投入”。韦韬表示。


在一线负责产品的蚂蚁隐私计算专家霍传冰则表示,以银行的多方联合风控场景举例,目前的合作基本是在两方和三方之间,如果说要针对样本数据做一些纵向拓展以加入更多维度的信息的话,“技术的性能衰减开始非常厉害,目前只能支持5方的计算。而如果采用保密程度更高的密码学方案,则最多只能支持到3方的运算。3方之后,整体的性能将迎来断崖式下跌,而成本则是指数级增长,市场是无法接受的”。


而在缺乏密态计算基础设施的情况下,数据融合参与方发生变化、数据部署发生变化,都需要在可信隐私计算协议上做专业化的安全评估和性能优化,这样的技术难度和使用门槛更不是普通行业用户能够承担的。


隐私计算的技术门槛和性能问题成为其规模化限制的最重要影响因素之一。这意味着,以如今的隐私计算高昂的成本,只有前20%的中大型企业才能负担得起隐私计算的成本。剩下80%中长尾需求则无法被满足。在技术人才方面,中小企业也缺乏专门的人才来支撑。也意味着,在整个数据交易市场,只有少部分的高价值数据如消费、行为相关的数据才能顺利得在市场上流通。


而韦韬此次介绍的“密态天空计算”或许是这一问题的解法之一。“密态天空计算”指的是数据的跨云密态流转和计算服务,它能够支持多方储存在不同云服务上的数据进行密态计算以及流转。


根据韦韬的解释,在云计算越来越普遍的当下,多云之间的数据流转需求也越来越多的开始涌现。但是当多个需求方开始数据流通的时候,就需要对接不同的隐私计算厂商,对于小微企业来说很难负担。所以大家产生了很强的互联互通需求。在这样一种需求下,推动了底层的这种共同标准的出现。


在密态天空计算技术的支持下,多方跨云实现数据的互联互通,隐私计算从点对点变成了网状流通。韦韬称,彼时,各个网络上的节点统一遵循一致的底层标准后,全行业就能开始取得规模化效应,边际成本将大幅降低。


“到时候,它(密态天空计算)的成本可能会从如今的千倍甚至万倍以上,降到十倍到百倍之间,让数据安全可控规模化流转成为可能。”


组织成的密态天空计算网络将会是全行业数据密态流转的技术基础设施。在向这个阶段迈进的过程中,隐私计算技术将会不断变得普惠平等易用。


韦韬称,在密态天空计算网络之中,未来蚂蚁会与行业伙伴们协力推出密态即服务(aaS)的产品与服务,让更多的云上数据密态流转基于技术信任的可信流转,并通过支持标准化密态协议实现互联互通,从而实现一个支持全行业数据密态流转的技术基础设施

整体上看,韦韬认为,过去五年大致是在计算密态化时期;未来三到五年,可以逐渐实现第二阶段大数据密态化。在这个阶段需要不断修建“密态枢纽”,并通过互联互通慢慢建立起小规模的密态天空计算网络。


“希望在5至10年的时间里,看行业的发展慢慢扩大。届时,性能和成本的限制将会减少,十几方的联合计算也将可以支持,企业外循环数据流动将会变得易用自由,更多的数据价值将会被释放。”

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
监控 安全 数据可视化
第9讲:隐语多方安全计算在安全核对的行业实践丨隐私计算实训营 第1期
行业法规趋势强调数据安全与隐私保护,如《个人信息安全规范》、《数据安全法》和《个人信息保护法》,倡导最小权限原则和数据的有效利用。产品方案致力于在保障安全和隐私的前提下促进数据共享。技术共建中,与隐语合作构建安全自证能力,包括可审查性、可视化监控和可攻防的验证机制,确保数据操作透明且安全。
79 1
|
7月前
|
安全 区块链 数据安全/隐私保护
隐私计算实训营 第1期-第2讲 隐私计算开源如何助力数据要素流通
本文探讨了数据要素流通中的三个关键主体——数据提供方、数据消费方和数据平台方的忧虑。数据提供方关注商业秘密、个人隐私、数据使用控制及安全合规;数据消费方则担忧数据授权链和合规使用;数据平台方旨在解决双方疑虑,提供主体审核、授权链路审核、合规评审等服务。技术可信是关键,涉及隐私计算(数据可用不可见)、数据空间与区块链技术(数据可控可计量)以及数据匿名化(数据可算不可识)等。
|
7月前
|
存储 安全 数据安全/隐私保护
隐语实训营-第2讲:隐私计算开源助力数据要素流通
数据要素大潮带来了全新的数据安全外循环技术挑战,即信任焦虑,需要从主体信任逐渐转向技术信任。面对这些挑战,隐私计算需要不断丰富其内涵,不断标准化其产品能力的度量尺度,不断降低接入门槛。而开源隐语具有技术优势和专业的安全验证,获得过多项权威认定和荣誉,极大地推动了行业标准化及生态建设。
113 1
|
7月前
|
SQL 安全 数据挖掘
隐私计算实训营第7讲:隐语SCQL的架构详细拆解丨隐私计算实训营 第1期
SCQL是安全协作查询语言,让不信任的多方能在保护隐私的前提下进行联合数据分析。它假设参与者半诚实,支持多方(N>=2)合作,且具备SQL语法支持和性能优化。SCQL提供类似SQL的用户界面,通过CCL机制允许数据所有者控制数据使用权限。系统基于SPU的MPC框架运行,适用于多个应用场景。
167 0
|
7月前
|
运维 安全
隐语隐私计算实训营-第一讲
主题:数据可信流通,从运维信任到技术信任
|
7月前
|
机器学习/深度学习 安全 算法
【网络安全】隐私计算迎来千亿级风口,一文讲清它的技术理论基础。
【网络安全】隐私计算迎来千亿级风口,一文讲清它的技术理论基础。
238 0
|
机器学习/深度学习 SQL 人工智能
隐私计算技术路线介绍及对比
隐私计算技术路线介绍及对比
933 0
|
人工智能 安全 搜索推荐
50 2022 WAIC·可信隐私计算高峰论坛20h
50 2022 WAIC·可信隐私计算高峰论坛20h
105 0
|
机器学习/深度学习 安全 算法
蚂蚁开源可信隐私计算框架“隐语”,联合CCF设立“隐私计算专项科研基金”
蚂蚁开源可信隐私计算框架“隐语”,联合CCF设立“隐私计算专项科研基金”
186 0
|
安全 网络安全 数据安全/隐私保护
「数安周享会」隐语开源社区:隐私计算助力数据要素市场化-难而正确的事情
「数安周享会」隐语开源社区:隐私计算助力数据要素市场化-难而正确的事情