对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠

随着数字经济的不断深入,数据作为一种全新的生产要素成为影响市场的重要因素。在当下最火热的大模型创业潮之中,优质的数据是影响大模型训练效果关键之一,以往积累的稀缺行业数据甚至构成了部分公司的强有力壁垒。


2023世界人工智能大会“数据要素与隐私计算高峰论坛”期间,蚂蚁集团副总裁、首席技术安全官韦韬在机器之心专访中谈到,在正规的数据交易链条中,通常为加强交易双方的技术信任,数据持有方会采用可信隐私计算的技术来对数据实现“可用不可见”,在让数据产生价值的同时规避信息泄露等问题。数据流通整个行业正在迈向数据密态时代。


2023世界人工智能大会“数据要素与隐私计算高峰论坛”,韦韬发表主题演讲


正是由于数据的复制成本极低,过去在各类安全标准未完全完善的情况下,数据交易中出现信息泄露以及其他合规风险的可能性较大,产业链相关方“不敢流通”、“不会流通”、“流通不起”,大大抑制了数据要素的流通性。


而如果要实现数据要素自由流通、最大化发挥数据要素的价值这样的愿景,数据需要密态流转。迈向数据密态时代,数据与数据间应当在一个足够安全的流转网络中流通,在能保证多方数据安全的前提下,实现相对低成本低门槛的数据价值合作。


韦韬在专访中向机器之心介绍了“密态天空计算”的概念,这个概念从加州大学伯克利分校的两位计算机科学教授Ion Stoica和Scott Shenker提出的“天空计算(Sky Computing)”发展而来。


From cloud computing to sky computing.Ion Stoica, Scott Shenker HotOS, 2021

“密态天空计算”是指基于技术信任的数据跨云互联,提供数据的跨云密态流转和计算服务,其目标是允许基于数据密态的应用能跨多个云厂商运行。简单来说,在密态天空计算技术的支持下,可以构建起一个在多云环境下安全可信的互联互通的数据密态流转网络,网络上各个节点方能够通过密态计算因子便捷、安全地进行数据流通融合。


韦韬提到,随着互联互通的密态天空计算网络逐步建设完善,数据要素流通就可以逐渐突破“不敢用、不会用、用不起”的局限,可信隐私计算将变得更加平等普惠,更多的数据可以参与流通,创造更大的价值。

明文数据交易的失败


在银行风控场景,如果多家银行能够合规共享数据,那么一个人在多家银行的信用和风险数据就可以被精确融合分析,针对这个人的信贷和风控策略就更准确。这就是数据流通的价值。


在传统的数据交易方式下,双方之间通常用明文数据流通,“直接拷贝一份或者接个API”,也就是用裸露的明文数据去共同计算、合作。这种方式数据价值全面且成本低,但是容易被二次拷贝,数据滥用和泄露的风险极高。

2021年《数据安全法》与《个人信息保护法》正式实施以后,企业如何获取、使用数据、处理个人信息的边界被明确规定。其中,《个人信息保护法》提到,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。


这也意味着,交易含有未被合法授权却能够对应识别到自然人相关身份信息的明文数据,变成一个违法操作。如果说在法律出台以前,仍有灰色地带,在2021年之后,合规数据交易的边界变得更加清晰了。


韦韬对机器之心表示,整体上数据交易行业的困难在于难以确权以及难以定价。而明文数据的交易方式除了有较大的合规风险,另一个致命问题在于容易失控。


“数据本身的复制成本非常低,很容易造成二次分发,一旦分享出去就容易失控”。数据在脱离自身控制后,对方是否会任意复制、是否会交给第三方、是否会将这些数据用于违法犯罪,这些问题变成了一个未知。


另外,由于合作双方可通过明文数据推演出对方数据资产状态,获得客户触达方式和敏感隐私数据甚至攫取对方流量资产,由此引发的敌意、不信任、不放心会极大影响数据交互双方合作意愿,进而影响了数据要素的流通与价值的盘活。


更重要的是,“数据变成了你有我有大家有,因此数据的价值系统也会紊乱”。数据的价值在于稀缺的信息,但是明文流通且可以随意复制,让数据的定价变得更加失序。


在可能“违规”、“泄密”、“价值被破坏”的风险下,明文数据的交易方式一定程度上抑制了数据交易市场的发展。更多的数据持有方变得更加谨慎,不愿流通、不敢流通。


密态计算成为迫切需要


那么,有没有办法可以在保证合规的基础上,实现数据流通?


对于想要共享数据获得更精准用户特征的银行来说,怎样才能保证共同训练的过程中,不会泄露用户的个人身份信息,同时保证自己的数据在跨主体流转融合后,仍然能在传播中不失控,最终仍然可以通过计算得到自己想要的结果?


韦韬称,目前解决这一挑战的主要方向是利用可信隐私计算技术,实现数据密态流转,做到数据“可用不可见,可控可计量”。


与数据的明文传播做对比,可信隐私计算技术能够支持数据加密流转。数据密态即在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态,不出现明文数据失控,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。


本质上,可信隐私计算是以技术的方式帮助数据交易双方实现信任。基于这样的技术信任机制,可信隐私计算能够实现数据的跨域管控。当数据流转到其他域中,依然可以对它进行管控,使得持有权不失控。因此,数据要素的提供方以及相关加工处理方均能得到收益。


随着数据要素在国家战略层面上受到越来越多的重视,过去两年,数据要素市场的相关政策加速出台,为数据要素行业厘清了更多边界——


2022年,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”),明确提出要“建立合规高效、场内外结合的数据要素流通和交易制度”,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架,构建中国特色数据产权制度体系。


在法律以及行业标准逐渐清晰的基础上,密态计算技术的市场需求开始爆发。蚂蚁隐私计算专家霍传冰发现,相比于2021年,“2022年后来到公司咨询的客户转化率(从线索到销售)同比增长了10%”,为实际需求买单的客户越来越多了,蚂蚁可信隐私计算业务的落单量同比迎来了大幅提升。


另外,可信隐私计算技术的逐步成熟也增强了市场上数据持有方的信心。在可信隐私计算技术的加持下,一些高价值的数据,比如医疗、金融、保险、政务等行业,开始逐步释放自己数据的价值。


国家工业信息安全发展研究中心测算数据显示,2023年国内数据要素市场规模将破千亿,2025年市场规模将达到1749亿元,“十四五”期间市场规模复合增速将达到26.3%,整体进入高速发展阶段。


未来的技术基础设施


在韦韬看来,整个数据密态化时代的发展,将经历计算密态化、大数据密态化、数据要素密态化三个阶段:



首先是计算密态化时期,联邦学习、MPC等隐私保护计算技术快速发展,将明文数据流转变成了密态数据流转,保证安全合规以及试点验证。


其次是大数据密态化时期,大数据平台从明文计算迈进密文计算,丰富的中间结果以密态形式存在,数据持有权与使用权分离,行业发展的重点是实现可信隐私计算技术的可用易用,降低门槛。


最后是数据要素密态化时期,全行业数据密态流通,多方异构互联,中长尾流通的难题被解救,密态天空网络搭建成功,做到使用成本降低,广域普惠。


韦韬判断称,当下我们正处于从第一阶段向第二阶段迈进的时期,在该阶段,各个机构开始全面使用密态计算获得收益,无论是要处理的数据规模还是复杂程度将远高于第一阶段。


“更具体的,是要解决大数据技术生态和AI技术生态的密态化技术升级问题,特别是如何让现有的广大的一线大数据和AI工程师们能够便捷的用上密态化技术能力?如果只能依靠少数同时精通隐私计算和大数据技术的行业专才重人力投入的话,那么是无法支持全行业数据要素转型的迫切需求的。”


经过推演,韦韬认为在下一个阶段的重要任务是需要通过密态即服务(Cryptographic Computing as a Service,即C²aaS)、技术开源等方式,降低技术门槛,推动大数据和AI技术密态化。


“因为一开始密态化转型的技术难度非常高,行业这方面的专才非常稀缺,因此只有少数头部企业在高价值数据的场景下才能有足够的人才和资金去投入”。韦韬表示。


在一线负责产品的蚂蚁隐私计算专家霍传冰则表示,以银行的多方联合风控场景举例,目前的合作基本是在两方和三方之间,如果说要针对样本数据做一些纵向拓展以加入更多维度的信息的话,“技术的性能衰减开始非常厉害,目前只能支持5方的计算。而如果采用保密程度更高的密码学方案,则最多只能支持到3方的运算。3方之后,整体的性能将迎来断崖式下跌,而成本则是指数级增长,市场是无法接受的”。


而在缺乏密态计算基础设施的情况下,数据融合参与方发生变化、数据部署发生变化,都需要在可信隐私计算协议上做专业化的安全评估和性能优化,这样的技术难度和使用门槛更不是普通行业用户能够承担的。


隐私计算的技术门槛和性能问题成为其规模化限制的最重要影响因素之一。这意味着,以如今的隐私计算高昂的成本,只有前20%的中大型企业才能负担得起隐私计算的成本。剩下80%中长尾需求则无法被满足。在技术人才方面,中小企业也缺乏专门的人才来支撑。也意味着,在整个数据交易市场,只有少部分的高价值数据如消费、行为相关的数据才能顺利得在市场上流通。


而韦韬此次介绍的“密态天空计算”或许是这一问题的解法之一。“密态天空计算”指的是数据的跨云密态流转和计算服务,它能够支持多方储存在不同云服务上的数据进行密态计算以及流转。


根据韦韬的解释,在云计算越来越普遍的当下,多云之间的数据流转需求也越来越多的开始涌现。但是当多个需求方开始数据流通的时候,就需要对接不同的隐私计算厂商,对于小微企业来说很难负担。所以大家产生了很强的互联互通需求。在这样一种需求下,推动了底层的这种共同标准的出现。


在密态天空计算技术的支持下,多方跨云实现数据的互联互通,隐私计算从点对点变成了网状流通。韦韬称,彼时,各个网络上的节点统一遵循一致的底层标准后,全行业就能开始取得规模化效应,边际成本将大幅降低。


“到时候,它(密态天空计算)的成本可能会从如今的千倍甚至万倍以上,降到十倍到百倍之间,让数据安全可控规模化流转成为可能。”


组织成的密态天空计算网络将会是全行业数据密态流转的技术基础设施。在向这个阶段迈进的过程中,隐私计算技术将会不断变得普惠平等易用。


韦韬称,在密态天空计算网络之中,未来蚂蚁会与行业伙伴们协力推出密态即服务(aaS)的产品与服务,让更多的云上数据密态流转基于技术信任的可信流转,并通过支持标准化密态协议实现互联互通,从而实现一个支持全行业数据密态流转的技术基础设施

整体上看,韦韬认为,过去五年大致是在计算密态化时期;未来三到五年,可以逐渐实现第二阶段大数据密态化。在这个阶段需要不断修建“密态枢纽”,并通过互联互通慢慢建立起小规模的密态天空计算网络。


“希望在5至10年的时间里,看行业的发展慢慢扩大。届时,性能和成本的限制将会减少,十几方的联合计算也将可以支持,企业外循环数据流动将会变得易用自由,更多的数据价值将会被释放。”

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
网络协议 算法 网络性能优化
|
物联网
IoT物联网设备OTA固件升级开发实践
通过OTA方式,我们可以对分布在全球各地的IoT设备进行设备固件升级,而不必让运维人员各地奔波。
7562 0
|
11月前
|
存储 自然语言处理 文字识别
开放应用架构,建设全新可精细化运营的百炼
本文介绍了阿里云智能集团在百炼大模型应用中的技术实践和运营经验。主要内容包括:1) RAG技术的背景及其在落地时面临的挑战;2) 多模态多语言RAG技术的研发与应用;3) 多模态多元embedding和rank模型的训练;4) 基于千问大模型的embedding和rank模型;5) 开源社区推出的GT千问系列模型;6) 模型应用中的可运营实践;7) AI运营的具体方法论和实践经验。通过这些内容,展示了如何解决实际应用中的复杂需求,提升系统的准确性和用户体验。
|
数据采集 JavaScript 前端开发
通过ClearScript V8在.NET中执行复杂JavaScript逻辑
爬虫技术是数据采集的关键手段。针对动态加载的网页,传统HTTP请求及HTML解析难以满足需求。本文章介绍如何利用ClearScript V8库在.NET环境中执行复杂的JavaScript逻辑,以提高爬虫对动态内容的抓取效率。文章首先概述了ClearScript V8的功能,如何处理如微博这类含有大量动态加载内容的网站。通过使用代理IP、设置cookie和user-agent等方式模拟真实用户访问,确保了爬虫的稳定性和隐蔽性。提供了一个具体的C#爬虫示例,演示如何结合ClearScript V8和HTTP客户端来实现上述功能。这种方法不仅增强爬虫的灵活性,也极大地提高数据采集的效率和可靠性。
422 1
通过ClearScript V8在.NET中执行复杂JavaScript逻辑
|
机器学习/深度学习
神经网络各种层的输入输出尺寸计算
神经网络各种层的输入输出尺寸计算
684 1
|
9月前
|
弹性计算 自然语言处理 Ubuntu
OS Copilot-操作系统智能助手-Linux新手小白的福音
OS Copilot是由阿里云推出的操作系统智能助手,专为Linux新手设计,支持自然语言问答、辅助命令执行等功能,极大提升了Linux系统的使用效率。用户只需通过简单的命令或自然语言描述问题,OS Copilot即可快速提供解决方案并执行相应操作。例如,查询磁盘使用量等常见任务变得轻松快捷。此外,它还支持从文件读取复杂任务定义,进一步简化了操作流程。虽然在某些模式下可能存在小问题,但总体上大大节省了学习和操作时间,提高了工作效率。
303 2
OS Copilot-操作系统智能助手-Linux新手小白的福音
|
12月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
缓存 前端开发 JavaScript
优化前端性能的10个实用技巧
提高网站或应用程序的性能是前端开发中至关重要的一部分。本文将介绍10个实用的技巧,帮助前端开发人员优化其项目的性能,包括减少HTTP请求、使用CDN加速、压缩和合并文件、优化图片等方面的技术手段,以提升用户体验和网站加载速度。
|
分布式计算 数据挖掘 云计算
CCF推荐C类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
中国计算机学会(CCF)在计算机体系结构、并行与分布计算、存储系统领域推荐了一系列C类会议和期刊。此汇总涵盖了各期刊和会议的全称、出版社、dblp文献网址及研究领域,为学者和研究人员提供了重要的学术交流资源。列表包括《ACM Journal on Emerging Technologies in Computing Systems》、《Concurrency and Computation: Practice and Experience》等期刊,以及ISPA、CCGRID等会议。这些资源对推动领域内的学术交流和技术进步具有重要意义。
CCF推荐C类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)