作者|靖人
众所周知,数据的价值,基于经济活动中信息交互所产生;数据越流通,应用在不同场景,其价值会得到不断放大及提升。在数据流通过程中,我们不可避免的会遇到数据安全,包括隐私保护等系列问题。
蚂蚁集团资深副总裁周靖人在“2021WAIC·隐私计算学术交流会”上发表《开放智能--数据流通下的数据安全和数据隐私》演讲:从数据特性入手,基于数据具有的独特性背景下如何做到数据安全、隐私保护,也可放大数据应用的价值;同时也首次引入“开放智能”概念及背后的技术架构思考。
一、从数据特性看数据流通
谈到数据,首先需明确数据的特性。讲到数据的价值,免不了需聊到一个比较深刻的问题:数据归属。数据的归属问题,近期受到了社会各界的极大关注,很大程度上,也会影响到今天如何去做数据分享,以及数据共创。
1、多数据主体
在我看来,数据分为好几个类别。有一类数据,相对较为基础,涉及到人的基础信息,如年龄、性别等,这些信息属于客观描述,与外界因素非强关联,更多情况归属到信息主体,也就是个人名下。除基础信息,还有另一类信息,它的价值越来越大——这就是我们讲到的行为数据。举个例子:今天有一位消费者,使用了某服务,或购买了某商品,这都属于行为数据的一种。在这个行为数据中,涉及到多个数据主体:消费者是一个行为主体,同时商品、服务也是一个行为主体,还有一方涉及到平台,平台通过观察消费者和商品之间的一系列关系,能够把相互的行为数据记录下来,所以平台方也是整个数据产生的重要一环。
同样的,对数据主体的理解,随着场景与之相辅相成。比如消费者买了一杯饮料,一方面,基于购买行为可以是对饮料的理解,但同时我们在理解饮料属性时,也会影响到我们对消费者的理解,如品牌偏好等。另一方面,因购买饮料这个行为,可通过对消费者的理解传递到对这件商品、这杯饮料上。数据包含有对每个主体的理解,但对每个主体的理解并非独立存在;因为对其他主体的理解,反过来会增强对该主体的理解。
通过上述观察,可发现行为数据涉及到多个主体。在数据归属性上,原则上可以说是属于整个数据行为参与的各个主体。
2、数据价值影响因素
当初步讨论完数据归属问题后,我们开始进行数据价值的探索。
如仅仅为行为数据本身,其并不代表具体的价值;因为不同平台从中提炼出来的价值是不一样的。比如A平台看见的是一位消费者购买了一杯饮料;B平台记录的是这位消费者购买了一杯咖啡,他是一个咖啡的爱好者;C平台甚至可以了解买的星巴克,知道品牌偏好,买的美式还是拿铁,对口味有深入了解;D平台深入挖掘,发现下午两点钟有买咖啡的习惯等等——通过这个例子,是想说明数据价值的挖掘,与平台技术投入密不可分。不同的平台,通过技术影响到对体系建设、对数据价值挖掘。所以本身数据的价值跟平台的投入平台技术实力都是密切相关。
不难看出,行为数据,涉及到了多个数据主体。也就是这类数据归属问题,不能简简单单用一个单一的主体来概括。正因为如此,我们发现数据产生的场景与它应用场景是不一样的——数据产生的场景,是因为这个消费者买了这杯咖啡,但是我们今天可以把这个行为数据应用在不同的场景里面,包括他的购物习惯、生活习惯等等。也就是数据的产生的场景,跟应用的场景是可以完全不一样的。数据只有在更多的场景里面进行应用,那它的价值才能得到发挥,得到不断的扩展。
3、保护谁的数据权益
同时,数据有很强的不可分离性。也就是不能把一个人买了一杯咖啡的行为,分割成单服务或分割成个体信息,所以对数据的应用,或多或少都会对所有参与这条数据的主体都会造成影响。所以我们今天在做数据分享数据流通的过程当中,是要保护所有数据主体或数据参与方的权益。
具体的讲,我们站在消费者角度比较容易理解:如何保护消费者的隐私,通过数据分享能为消费者带来更多的权益。同时在平台角度,平台做了大量技术投入,通过数据的流通,也希望能保护平台方的知识产权,以及依法进行相应监管。
4、算法伦理
讨论完数据归属问题,还有另外一个非常有挑战非常有意思的问题,我们称之为算法能力:应用数据后对算法产生的影响。这个范畴包括了可解释性、公平性、以及一系列的隐私保护。
公平性这个问题在社会学、经济学有非常深入的研究。我们使用一个小小的卡通来展示社会学在这方面的思考:有三个不同身高的小孩,他们都希望通过一个栅栏,能够观看足球赛,今天平台对他们的处理,可以有不同的方法:
- 第一种方法,治理均等,也就是对于每一位主体采用同样对待,一视同仁,他们都想看得更高,都想观看足球赛的时候,给予同样的处理,要么大家都有同样的垫高小板凳,要么没有。
- 第二个是结果平等。个头比较矮的小朋友,我们给他多垫高一点,让每一位小朋友都能看到比赛,也就是说结果平等。
- 还有一种方式,是我们希望找到影响不同个体的决策因素,把这些决策因素去掉,这样也可以使不同的个体,能面对平等的对待,也就是过程正义。这个例子来讲,就是把围栏变成网格,不再需要通过垫高的方式观看比赛,从而也是解决了平等问题。
今天运用到人工智能、运用到算法,我们的挑战是如何把社会学、经济学的思考,能够映射到数学模型,映射到算法方面。
其实我们在算法层面的思考,跟社会学经济学的思考有非常强联系。如算法中常提到的个体公平,也就是对于相似个体,希望能得到相似结果,这跟社会学的治理平等是比较一致。算法经常讲到群体公平,一个相似的群体,得到的模型结果,甚至得到的模型精度都是类似的,这与整个社会学里面的治理均等、结果平等比较类似。还有一种因果公平,也就是希望算法,不是因为一些个性化因素,一些敏感因素而受到强烈波动,比如消费者的年龄、性别等因素并不作为算法决策的重要的依据。
所以站在算法角度,其公平性、可解释性、隐私三者相辅相成。
首先我们聊聊公平和隐私。不同模式下,隐私也有不同含义;讲个体公平,隐私更多理解类似差分隐私场景;讲群体公平,所谓隐私,就是今天越是小规模的群体,越有暴露隐私的风险。
再聊聊可解释性和隐私。其两者在某些程度上存在矛盾,举个例子,今天讲到模型可解释性,往往需要把一些模型的决策点能够逐渐暴露出来。但随着把模型的决策点以及边界条件暴露出来,实际上也是暴露了一些人的隐私。从模型的结果可推测到一些人的属性——所以如何权衡,也是当下需研究的一个很好的课题。
另外可解释性和算法公平是相互促进关系。随着算法从一个黑盒变成白盒,慢慢引入可解释能力,可督促我们实现算法是无歧视的,通过公平性,敦促算法具有公平性的一方面的属性。
二、数据的开放流通包含三个层次
讲完了数据的特性和算法的伦理,我们再来探讨下,看看数据怎么交流、怎么产生价值?
这里简单归纳为三个层次:
- 第一个层次:仅涉及到个人数据的生产和融合,往往涉及到一个个体或平台,或平台通过观察的方式,积累个人行为数据。今天大家在电商平台,或者今天在看新闻看抖音等,都是属于这样一个场景,也就是说平台可以观察个体的行为,能够产生一些个体的数据。
- 第二层涉及到机构之间数据的互相交流,比较典型的例子是银行可通过用户信息的流通,不断提升风控能力,避免系统性风险。
- 第三层次,是数据能进入流通的生态,这样会有数据的提供方、数据的消费者,这中间有一系列的机制,保证数据隐私、数据安全,同时也能提供更好的数据服务。
1、个人数据的生产融合
今天主要讨论前面两个层次。
首先是个人数据生成和融合。这类场景会涉及到数据采集、模型训练,如何从数据挖掘核心信息,产生个性化模型,最终模型得到使用、影响决策。这是一个比较长的链路,需在整个过程中关注如何保护个人隐私。往往保护从产品设计就开始考虑,从整个产品链路,做到事前授权、事后审计。采集过程也需以最小集采集为原则,而不是随意的、无明确范畴采集,这方面引入差分隐私、数据脱敏等技术。在建立模型后,还需进行验证,确保模型可信——这方面有差分隐私可解释性的技术。
随着互联网高速发展,进入到新阶段:云端协同。如今很多消费者都会有一个手机或电脑,大多行为在端上发生,模型很多在云上进行大规模机器学习训练产生,这样的体系我们称之为云端协同。在过程间,做到数据使用的同时,能不采集尽量不采集。也就是说今天我们在端上的时候,再去理解用户的行为的同时,去做初步的数据筛选、数据清洗等等。这些清洗后的数据,再到云端融合其他数据,产生新的模型计算。整个过程当中,我们并没有把用户的行为存储起来,真正的做到使用,能够为消费者提供更好的权益,但是并没有存储下来。
在这个框架里,比较典型的是联邦学习,它可以说是一个分布式学习框架。在数据采集后,不出域的原则。也就是我们今天可以把很多原型计算,放到每一个端上,通过协同方式,去创建联合学习模型。这方面也会通过差分隐私、可信执行环境等等技术,去加强整个数据保护的能力。
2、机构数据的开放流通
涉及机构之间的数据互通,就是刚才讲到银行通过用户信息互通,提高风控能力等。通过各机构之间信任关系、网络状态、数据量以及模型复杂度等,可分为下面几个类别:
1、最直接的,集中式模式,也就是数据各个机构、参与方能够把数据汇总到集中式环节里进行模型训练,进行整个认知智能的探索。这需有一个很强的信任关系在里面,这种强信任关系,可通过政府监管、合约条款等实现,还可通过技术、加密硬件实现,也就是前面提到的可信执行环境,包括比较典型的Intel的SGX,或者一个小的特定集群来提供高效的数据融合。这种方式好处是效率高,数据融合在一个主体,就可进行非常复杂的计算,且效率高、没有网络延迟等。但它的难点,是如何搭建起可信环境。所以在实践中,我们会延展到另外一种场景,也就是我们讲到的去中心化模式。
2、去中心化模式,所有的模型训练是分布式执行:数据提供方,也是计算参与方。通过多方的协同,来进行联合训练,联合学习。技术就会涉及到多方安全计算、同态加密等。在计算过程中做加密,虽然带来了安全性保障,对性能也提出了很大挑战。该模式可做到安全可证,但同时会为性能付出代价,比如在模型规模、复杂度等方面,会遇到对应挑战。
3、集中式模式和去中心化模式之间,还有一种中间状态,就是我们经常提到的联合计算模式。这个模式里,每方都会参与到模型计算,同时我们引入了中间层,也就是一个中心化模块的概念,这个模块可协调相应计算、模型训练,比较具有代表性的是联邦学习,包括拆分学习、差分隐私等,都属于联合计算学习框架。在这个框架里,通过差分隐私来加密各个模块与中心化模块之间的通信。以信息论为基础,我们可以度量任何一个信息交互所可能带来的个人隐私风险,称之为可度量模式,也就是个人隐私在联邦学习环境中计算,所带来的一系列风险是可度量的。
总结下,我们可以把机构之间的开放、流通,可归纳为可信环境,可证,可度量的环境。
三、开放智能技术总览
当我们了解了数据的特性,也了解了数据流通的各种场景,接下来会讲一讲相关技术领域,如何去保证在各种复杂场景里,如何保证数据安全及隐私保护。
首先需要跟大家介绍一个名词:开放智能。开放智能代表的是所有在这一系列的数据中间,所涉及到的一系列数据技术,统称为开放智能。大家可以看到这个领域非常复杂,也非常具有挑战——整个开放智能中,会面临多个数据主体,包括个人、企业,甚至政府,每一类的主体意愿不一样,诉求不一样。个人层面想做到隐私保护,企业诉求是希望保护自己的知识产权,政府关注社会利益最大化。而开放智能的目标,是希望激励开放的意愿,同时避免数据歧视、算法垄断等。
我们可把这些技术分为五类:
- 第一类是底层数据,这层会去解决数据授权的问题。
- 第二类涉及到计算,包括提到的可信计算、可度量计算、可证计算,这些通过计算模式解决隐私保护问题。
- 第三层为算法层,解决合规合法、算法伦理、鲁棒性等问题。
- 在此之上还有市场,如何通过激励机制、定价等,促进形成良好生态。
- 最后是可验证技术,当模型训练出来,需确保模型实现的的确是我们需要它做的事情,所以还要可验证技术。
以此为基础,蚂蚁推出了隐私计算框架。该框架为分布式计算系统,统一的计算框架来解决刚提到的诸多挑战。
该框架有两个层次,今天我们可以通过对整个执行图的一系列优化,能够自动编成秘态计算图。同时计算的每一个PPU(Privacy Preserving Unit),分布在不同参与方,也就是说每个联合计算参与方里,都会部署一个Service;每一个PPU提供可信可证可度量的模式。把这样一个联合数据训练的过程,自动编译,分布到不同主体里进行计算,联合训练成一个可信模型。 整个体系结构,具有几个特点:
- 首先是可扩展性,因为今天任何当前主流的机器学习的框架,甚至计算框架都可在上面能够得到很好支持,上层可对接包括TF、Pytorch、JAX在内的多种主流机器学习框架,以及SQL前端;下层可以插拔包括SS、HE、GC在内的多种安全协议。
- 其次是隐私保护能力,支持包括可信安全、可度量安全和可证安全在内的多种隐私计算能力。
- 目前隐私计算最大的问题在于性能瓶颈,正因如此,我们在通讯各个方面,做了大量的优化,整个系统能提供优秀的计算性能,包括Platform + PPU的双层设计可以提供分层优化能力,提供业界顶尖的计算性能和计算规模。
四、开放智能在个人信贷场景中的应用
刚讲到的是各种技术,因时间关系,我们这里只讲一个典型应用。
今天我们在银行这个个人处理贷款的时候,往往银行为了降低风险,会理解这位用户当前在银行里面各种行为,包括购买过什么基金,使用过什么金融产品,日常消费流水等。这个过程需要全链路健全机制的保障,需在用户授权情况下做分析;最终分析结果为帮助我们能提供更好的数据的服务。同时,银行会发现,如果只是分析该用户在本银行数据,往往不够,所以为降低相应风险,为消费者提供更好的服务,需融合更多银行之间的数据,甚至在其他场景的行为进行联合建模,降低银行系统风险。
为实现上述效果,就会涉及到多方安全计算。当联合计算后,还需做验证,确保每个数据参与方,真正完成了它所需要做的计算,而不是说某一方为虚假计算,也就是可验证计算。当产生模型后,因为不能是黑盒状态,需要可解释,要面向消费者进行告知:为什么今天要带这么多款,涉及到可解释问题。涉及到不能因为性别、年龄就对用户做了特殊处理,在这一环节也需确保算法在里是公平的。以及非常重要的监管,所以要有存证、审计的能力——这样一个简单的例子,一下就串联起来开放智能技术的方方面面。因为时间关系,我们今天只讲这样一个例子。 最后,开放智能今天提到的这个概念,是个非常泛的技术体系,涉及到了数据鉴权、隐私计算、可信赖AI、市场机制。这里面就像刚刚主持人提到的这是一个非常崭新的领域,还有很多领域的技术需我们一起去探讨,去创新,我们也希望大家一起加入我们,跟我们一起探索新的领域,不断的做技术创新。谢谢大家。