精彩回顾|王磊:隐私计算助力数据要素市场化——难而正确的事情
Cyber Talk隐语的小剧场 2022-06-09 18:20 发表于浙江
目前各方都在加大对数据在隐私保护下的挖掘和开发力度,隐私计算在各行业的使用也已越来越频繁,包括在智慧城市、政务数据开放共享、信贷风险评估、金融反欺诈、联合风控、精准营销等领域均有所实践。
5月28日(周六)晚,蚂蚁集团隐私计算技术部总经理、隐语开源社区技术指导委员会执行负责人王磊,作为特邀嘉宾于上海赛博网络安全产业创新研究院联合安永(中国)企业咨询有限公司主办的「数安周享会·Cyber Talk」第六期“隐私科技”专场中,带来《隐私计算助力数据要素市场化——难而正确的事情》主题分享。
哔哩哔哩,,,
隐私计算主力数据要素市场化——难而正确的事情
小程序
以下为本主题分享文字版实录:
01
隐私计算的政策和商业趋势
近几年,隐私计算发展火热,最重要的原因是国家政策和其本身商业潜力的推动。
隐私计算作为实现数据“可用不可见”“可算不可识”的良好解决方案,获得国家政策对其的相应支持。近几年国家密集出台了一系列关于要素市场化的指导意见,跟隐私计算相关的核心要点包括:将数据作为新的生产要素;数据要素市场化。市场化过程中离不开生产要素的流动,而在流动过程中,数据要素与传统的劳动力、土地这些实体的生产要素相比,具有低成本复制性因此在生产要素流动的过程中,如果数据的应用方认为其数据在使用过程中容易泄露或被别人复制,导致其核心资产泄露,那么就会阻碍其分享数据的意愿,很难去构建数据要素流通的市场。这也是在今年一月份的要素市场化的总体方案中,国务院提出要探索“原始数据不出域、数据可用不可见”交易范式的原因之一。在此情况下,隐私计算成为实现数据“可用不可见”“可算不可识”的首选。
其次,隐私计算本身具有巨大的商业潜力。在上述政策的驱动下,隐私计算目前正面临一片蓝海。IDC调研结果显示,2021年中国隐私计算市场规模突破8.6亿人民币。据算力智库不完全统计,截至2021年11月底,隐私计算厂商累计获得近70笔股权融资,公开披露的融资总额约65亿元。据甲子光年智库的测算,到2025年该领域市场将超过200亿,2021年至2025年年均复合增长率达133.4%。以上数据说明隐私计算当前的市场规模较为可观,商业潜力正逐年扩大。
02
隐私计算技术分析
数据的计算过程可以抽象成以下模式(如下图):将原始数据汇集到一起计算,最终获得计算结果。计算结果分成两部分,下图黄色部分是隐私信息,黑色部分是其他信息。图中的黑色锁代表传统的安全手段,比如数据传输过程中使用HTTPS(超文本传输安全协议)等加密手段来确保网络传输的安全。隐私计算则由红色锁表示,确保数据在计算过程中的安全。
隐私计算如何能够实现数据的“可用不可见”“可算不可识”?目前存在几种主流的隐私计算技术,分别在不同的场景得到应用。多方安全计算、可信执行环境和同态加密等是常用的隐私计算技术,它们可以构建一个“保险箱”,使得数据计算在保险箱内进行,他人无法看见,避免信息泄露。
多方安全计算,是通过密码学协议的方式来解决各方间的信任问题。其原理是在数据的拥有方布置一些计算节点,在节点之间设置多方安全计算协议进行交互,最后得到计算结果。简而言之,多方安全计算是采用密码学的协议构建虚拟的计算框,从而保证框内全部计算的安全性。
可信执行环境,是通过在设备上用硬件构建一个安全的处理环境来保护整个计算过程。具体操作是,用硬件构建一个安全保险箱,数据拥有方把数据用公钥加密后放到该安全保险箱中,硬件中的可信执行环境用私钥对数据进行解密,然后计算结果。
同态加密,是可以对加密后的数据进行计算,而无需事先解密。与可信执行环境不同的是,可信执行环境在保险箱中的计算是明文的,而同态加密的所有计算都是加密状态。其流程是,数据拥有方先加密数据,把密文数据交给计算节点,计算节点计算后再将加密结果反馈给数据拥有方,拥有方解密后得出最终结果。
由于计算结果必须要明文查看,而计算结果中可能会包含一部分的隐私信息,差分隐私就是用来解决这类场景的,通过对信息增加噪音,避免从信息识别到个人。虽然有了差分隐私的保护,但是如果计算过程相对简单,有心之人仍能通过计算结果逆运算反推出原始数据,这个问题目前尚未有很好的解决办法。
联邦学习也是隐私计算的技术手段之一。联邦学习同样构建了一个安全保险箱,但安全程度没有那么高。该技术会刻意做一些安全性上的退让和妥协,从而极大提高计算的性能,但不可避免会泄露部分中间信息。同样,泄露的中间信息中与个人隐私相关的部分,也可以通过差分隐私技术进行保护。
综上,我们可以给狭义的隐私计算下一个定义:完全依赖技术手段,实现数据在参与方之间的“可用不可见”,以此推进数据在安全和不泄露隐私的情况下的流通与开放。
这个定义中包含四个要点:不相信“人为”(例如传统利用人为权限控制的技术不在考虑范畴内),防备的是参与方(所以传统的防止第三方攻击的安全技术不在这个范畴内),保护的是数据价值和用户隐私(其中部分的隐私保护手段是通过不泄露计算过程中的任何中间信息做到的),目标是促进数据的流通和开放。
03
隐私计算面临的问题与挑战
在隐私计算发展的同时,王磊也指出其目前面临法律法规、技术和生态三大方面的问题:
在法律法规层面,首先是数据的确权和定价问题。由于数据流通涉及到数据权属问题,但目前法律界对此还没有明确的界定。不过业内一些讨论还是非常有价值的,比如可以将数据所有权、使用权、收益权等分离,以便更好地进行确权。其次是隐私计算技术的合规性问题。现有的技术和法律还在探索阶段,并没有明确指出哪些隐私计算技术在哪些场景能够合规适用,这将对隐私计算的发展造成一些制约。最后是《个人信息保护法》的实施细节和判例尚未明晰,也会影响隐私计算技术的普及。
从技术层面来看,则分为技术能力、安全的标准、互联互通等挑战。
技术能力问题上,诸多隐私计算技术的应用,从侧面反映出并没有任何一项技术能够解决所有场景下出现的问题,每项技术本质都是在计算的精度、计算性能和计算安全性上做折中和妥协。未来只有技术能力能够支撑较大规模的计算和良好的安全性后,才能使隐私计算真正助力整个数据要素市场流动。其次是安全的标准和测评问题。安全性是隐私计算的根基,但它又不像性能和功能那样能够完全用黑盒来检测每个功能是否都能正常使用。安全性更多是要把实现和理论“掰开”,检验是否存在瑕疵,测评存在难度。同时,隐私计算是一个比较前沿、技术门槛高的方向,目前专业人才非常少,很难找到有技术实力的人有能力通过白盒评测众多隐私计算技术的安全性。所以,现在虽然存在一些安全标准和测评尝试,但是离理想状态还有很远的距离。最后是互联互通问题——隐私计算的核心是链接数据、挖掘数据网络上的数据价值,因此无论是甲方还是技术提供方对互联互通都有非常强的诉求。但是现在隐私计算的厂商众多,各厂商实行的架构不同,隐私计算的技术种类也很多,不同技术、厂商架构之间如何联通成为难题。
产业生态问题同样不容忽视。首先是产业应用的丰富度不足。只有产业应用丰富起来,才能够形成商业化规模、促进行业的发展。但目前将隐私计算应用得相对比较成熟的产业少,丰富程度远远不够。其次是有价值的数据源不足。有价值的数据源相对比较稀缺,当前无论是用户对数据安全性的担忧,还是法律法规的确权问题,都导致没有很多有价值的数据源进入市场、推动数据市场的开放,因此隐私计算的市场需求也会受到压制。
最后是商业生态问题。要把一个行业做起来,最终必定要形成行业生态。一方面会有更多的参与者进入,在行业内扮演不同的角色,另一方面每个角色会形成独特的商业盈利模式。但目前隐私计算各个厂商其实还处在相对同质化竞争的状态,几乎每家都在做端到端业务,这种情况下很难形成行业生态。不过,相信未来随着整个行业的发展,慢慢会有新的角色分工出现,基于开放设计,每个角色都能够在生态位上找到适合自己的商业模式。值得注意的是,蚂蚁集团的隐私计算框架“隐语”也即将开源。希望通过开源将蚂蚁的技术赋能整个行业,同时吸引更多优秀的开发者加入,推动技术产品化、规模化应用落地,构建商业生态,最终推动整个隐私计算行业的发展。
— END —
除以上主题内容节选,本期“隐私科技:如何以数字化技术应对隐私保护痛点”专场还有多位嘉宾进行线上分享,探讨内容涵盖在监管和技术的发展之下,隐私科技的实践、未来发展,以及如何解决隐私保护痛点等。完整回放: