蚂蚁集团韦韬:数据密态是数据要素产业安全发展的关键技术路径
本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介:
蚂蚁集团韦韬:数据密态是数据要素产业安全发展的关键技术路径
机器之心编辑部
1 月 11 日,在 机器之心 AI 科技年会上,蚂蚁集团副总裁、首席技术安全官韦韬带来了《拥抱数据密态 助力数实融合》的主题演讲,分享了关于数据要素价值、数据安全与数据密态、隐私计算技术、数实融合等各方面的观点。
韦韬认为,安全和发展在数据要素产业中是需要协同与平衡的两个关键要素,数据安全是数字化持续升级的根基,离开安全谈发展是不可行的;同时,数据安全的行业落地也需要有一个渐进的实现路径,不能离开发展阶段孤立的谈安全。另一方面,数据要素产业要进一步发展也必然会与实体经济紧密结合,数实融合将为数据要素产业的发展提供更大的空间。
韦韬提出,行业数字化发展正在呈现新的趋势,我们正在迈入前所未有的数据密态时代。“数据密态” 是指在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态不出现明文,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。以隐私计算技术为代表的数据密态技术,是确保数据要素有效流转,发挥数据要素市场价值的重要技术手段。我们展望未来,数据密态是数据要素产业安全发展的关键技术路径。
以下为演讲全部内容:
数据安全是数字化升级的基石
随着全球数字经济的发展,海量数据正在以空前的速度爆发式增长,数据将成为数字经济发展的新动能。在我国,数据被列为了土地、劳动力、资本和技术之后的第五大生产要素。这意味着,作为一种生产要素形态,数据将参与市场化配置、交易和分配,并参与到产业数字化升级的全过程。
数据要素行业的健康发展成为实现数字化升级、助力实体经济的关键所在 ,这主要体现在安全和发展两大方面。
首先,数据安全是数字化持续升级的根基 ,离开安全谈发展是不可行的。同时,数据安全的行业落地也需要有一个渐进的实现路径,不能离开发展阶段孤立的谈安全。过去几年,我国相继出台了《数据安全法》、《个人信息保护法》、《密码法》、《民法典》等多部数据安全相关的法律法规,构建了数据安全法律体系。政策的落定为数据要素行业的发展提供了法律尺度,使得数据要素在发展中有法可依、健康发展成为可能。
同时,数据要素产业要进一步发展也必然会与实体经济紧密结合,数实融合将为数据要素产业的发展提供更大的空间 。只有把数据作为一项生产要素,深度融合到新业态、新模式中,才能带来产业数字化的腾飞;实体经济也会借助数据价值的发挥实现数字化升级,数字经济与实体经济的融合程度也将走向更加深入,实现真正的 “数实融合”。
当前,从政策、技术发展程度来看,数据要素市场迎来前所未有的发展机遇。我国出台了多个关于促进数据要素的文件,特别是 2022 年 12 月 19 日,中共中央 国务院印发了《关于构建数据基础制度更好发挥数据要素作用的意见》(即 “数据二十条”)。这是我国首个从生产要素高度部署数据要素价值释放的国家级专项政策文件,对数据产权、流通和交易、分配、治理等基础问题作出了实质性指导,在数据要素价值释放历程中具有里程碑式重大意义。
“数据二十条” 明确了探索数据产权结构性分置制度,建立了数据资源持有权、数据加工使用权、数据产品经营权 “三权分置” 的数据产权制度框架。我们认为, 关注持有权、强调使用权和弱化所有权在数据要素加工、流转、融合和市场交易的完整链条中都有着重要的意义。
从数据要素相关法律法规以及当前技术发展阶段出发,2022 年初,蚂蚁集团洞察出行业数字化发展的新趋势 —— 整个数据流通领域正在迈入 “数据密态时代” ,即在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态,不出现明文,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。
数据密态在理念上契合了近两年国家对数据要素行业安全发展的要求,在实践上也将分阶段分级别逐步落地,助力数实融合,推动全行业数字化发展。数据密态是数据要素产业安全发展的关键技术路径。
隐私计算技术实现数据密态的四个判断
那么,如何实现数据密态?蚂蚁集团在探索和实践以隐私计算为代表的数据密态技术过程中再次证明: 隐私计算技术可以实现数据持有权与使用权分离,是确保数据要素安全流转,发挥数据要素市场价值的重要技术手段 。在此,我将分享蚂蚁对隐私计算技术的四个核心判断。
第一点,隐私计算技术使得数据要素使用权和持有权的分离成为可能。
数据的持有权主要是持有明文数据或明文数据等价物的权利。数据要素和其他生产要素的显著区别是数据非常容易被复制。传统上基于明文的数据流转难以将数据的持有权与使用权分离,在漫长的数据价值流转链路上很容易导致持有权和使用权的失控,从而严重阻碍数据要素价值市场化。
当持有了明文数据后,意味着在技术上获得了数据不受限的所有的使用价值。一方面,数据持有方需要非常谨慎地合法合规使用数据,并按照法律要求尽责保护好数据持有权不失控;另一方面,一旦数据持有权失控,使用权也将失控并大概率会被滥用,继而导致数据要素作为商品的价值崩塌。
在数据流通领域,此前持有权和使用权从未被分离,直到隐私计算技术出现。隐私计算这类数据密态技术首次实现了数据持有权与使用权的分离,可以在保障数据持有权不丧失的前提下,对数据在跨域流转的全程对其使用权实现管控。这种数据流转全链路的使用权跨域管控能力,对于数据要素价值实现市场化而言至关重要。数据的使用权流通而非持有权流通,是数据要素行业发展的关键。
第二点,隐私计算技术突破性地实现了数据使用权跨域管控。
在数据要素流通中,数据使用权的跨域管控起到了非常核心的作用。跨域管控指的是即使数据的使用不在数据持有方的管控运维域内,同样能够在技术上保障数据持有方对数据如何使用进行决策。
隐私计算拥有几个重要的技术路线,比如多方安全计算和联邦学习需要数据持有者的参与,才能对数据进行融合计算,这是通过隐性的控制来实现使用权的跨域管控。
又比如可信执行环境(TEE),它离达到隐私计算的要求还有一定的距离。可信执行环境本质上是一个机密计算环境,它提供了可以远程验证、隔离且加密的执行环境,但本身并不为数据持有者提供数据使用权的跨域管控能力。这就需要 TEE 环境内的隐私计算平台或应用对其进行专门保障,否则它就只是机密计算,而不是隐私计算。
所幸的是,可信执行环境的远程验证技术可以很好地支持数据使用权跨域管控的实现,也是我们在努力推动行业共同发展的方向。
第三点,隐私计算技术处于发展早期,需要持续的技术攻关以及大家共同打破一些技术认知的边界。
如今,隐私计算已经在很多行业有成功的应用案例。但不可否认的是,隐私计算技术仍然处于发展早期,实际应用中能处理的数据规模、复杂性以及计算模式依然存在明显限制。同时,很多技术概念还不甚明了,一些错误认知也阻碍了行业的发展。
比如,业界初期普遍认为 “数据不出域所以安全”,但实际上这种模糊的 “数据不出域” 概念既不是隐私计算安全保障的充分条件也不是必要条件。数据跨网交互过程中只要有一个比特的错误,就可能导致整个数据的泄漏。妥善的数据密态出域则能够很好地保障数据的安全性。
一方面,数据的安全保障机制需要安全专家和专业化机构进行专业分析认可,而不能只靠比喻解释。比如现阶段的密码学,每当新密码协议产生,密码专家们要对其设计安全性进行详细论证,而安全专家们要对其实现进行长时间的攻击分析研究。与之类似,今后隐私计算要从现在少数公司、机构间的数据流转变成支撑全行业的基础设施,真正专业的安全评测和保障能力非常关键。
另一方面,安全是有成本的,但与大家认知不太一样的是,如今的专业安全可以在成本和业务效能之间找到非常好的平衡,甚至能做到在风险可控的条件下突破原有的业务技术瓶颈。
我们很高兴看到 “数据二十条” 中再次明确 “原始数据不出域,数据可用不可见” 是重要的原则和要求,消除了 “数据不出域所以安全” 这样的模糊定义。在这样的原则基础上,业界拥有了广阔的技术发展空间。
之所以强调这是非常大的进步,是因为如果只考虑数据不出域,强调所有计算都需要数据持有方的跨网络参与,则会导致数据持有方的网络成为严重的业务瓶颈。从安全专业角度来看,这个瓶颈并不是必须的,无论是对同态加密技术还是可信密态计算技术来说,它们都能突破这个技术应用瓶颈,也能保证安全的数据管控能力。只有突破这样的瓶颈后,分布式、大规模、可扩展的基础设施才能被真正提供,从而支持全行业的数据要素价值安全流转。
第四点,要真正实现数据密态,隐私计算必将走向技术大融合,解决大规模数据的安全和效率问题。
现在隐私计算技术有很多相对独立发展的技术路线,未来各个技术融合是大势所趋。这不仅仅是性能、场景适用性等方面的迫切需求,甚至在安全性上也有强烈需求。
现有的各条技术线,比如多方安全计算(半诚实模型安全问题)、联邦学习(信息熵泄露问题)和 TEE(供应链攻击与明文应用攻击)都在实际应用中面临各自的安全挑战,需要相互之间的技术融合来实现补位增强,进而成为未来行业大规模安全可用的隐私计算技术基础设施。
从另一个角度来看,隐私计算技术并不是免费的午餐。所有的东西都有成本,一般来说,安全性越高,成本要求越高。
现在多方安全计算和联邦学习都需要跨公网或跨专线来大量交互,多方安全计算会产生动辄万倍以上的性能损失,联邦学习用信息熵泄露的代价来换取性能提升,但也依然有百倍、千倍以上的性能损失。全同态加密本身计算速度很慢,也会有千倍、万倍以上的损失,但更大的问题在于它的数据会膨胀千倍、万倍以上。可信执行环境则需要部署新的可信硬件,造成额外的代价。
好消息是,一方面我们可以用技术融合来突破这些性能瓶颈,另一方面应用成本会随着基础设施的规模效应而逐步降低。只有达到一定规模以后,边际成本才能下来,高安全、高性能、高适用性的隐私计算技术才能被越来越多行业所用。
数据密态需要分步规模化
推动数据要素安全普惠
“数据二十条” 明确了 “三权分置” 的数据产权制度框架。我们认为, 数据密态是压实数据 “三权分置” 制度以及保障数据持有权、使用权分离的重要技术手段,也是未来数据要素市场化的发展趋势。
我们相信, 下一步发展的关键是通过分类分级来引导隐私计算等数据密态技术在各行业落地,这分别包括技术层面和应用场景的分类分级。 一边增加应用场景来获取更多的数据要素收益,另一边提升技术融合与基础设施规模化,降低数据要素流转的成本。同时也非常希望看到重点行业引导加速这一应用过程,通过共同推动扩大应用规模,从而降低边际成本,普惠全行业。因此,未来发展的重点在于行业如何正确引导,特别是监管机构以及担有头部责任的大企业的共同推动。
数据密态并非一朝一夕所能实现,未来很长一段时间需要政府、行业、企业、社会共同协力共建。我们需要在政府主管部门的指导下,联合行业伙伴、高等院校、科研机构在技术创新、生态共建上持续发力,打破认知瓶颈,通过技术突破与规模化降低行业边际成本,共同推动数据要素产业的安全健康发展,普惠全行业。