作者｜靖人
众所周知，数据的价值，基于经济活动中信息交互所产生；数据越流通，应用在不同场景，其价值会得到不断放大及提升。在数据流通过程中，我们不可避免的会遇到数据安全，包括隐私保护等系列问题。
蚂蚁集团资深副总裁周靖人在“2021WAIC·隐私计算学术交流会”上发表《开放智能--数据流通下的数据安全和数据隐私》演讲：从数据特性入手，基于数据具有的独特性背景下如何做到数据安全、隐私保护，也可放大数据应用的价值；同时也首次引入“开放智能”概念及背后的技术架构思考。

一、从数据特性看数据流通

谈到数据，首先需明确数据的特性。讲到数据的价值，免不了需聊到一个比较深刻的问题：数据归属。数据的归属问题，近期受到了社会各界的极大关注，很大程度上，也会影响到今天如何去做数据分享，以及数据共创。

1、多数据主体

在我看来，数据分为好几个类别。有一类数据，相对较为基础，涉及到人的基础信息，如年龄、性别等，这些信息属于客观描述，与外界因素非强关联，更多情况归属到信息主体，也就是个人名下。除基础信息，还有另一类信息，它的价值越来越大——这就是我们讲到的行为数据。举个例子：今天有一位消费者，使用了某服务，或购买了某商品，这都属于行为数据的一种。在这个行为数据中，涉及到多个数据主体：消费者是一个行为主体，同时商品、服务也是一个行为主体，还有一方涉及到平台，平台通过观察消费者和商品之间的一系列关系，能够把相互的行为数据记录下来，所以平台方也是整个数据产生的重要一环。
同样的，对数据主体的理解，随着场景与之相辅相成。比如消费者买了一杯饮料，一方面，基于购买行为可以是对饮料的理解，但同时我们在理解饮料属性时，也会影响到我们对消费者的理解，如品牌偏好等。另一方面，因购买饮料这个行为，可通过对消费者的理解传递到对这件商品、这杯饮料上。数据包含有对每个主体的理解，但对每个主体的理解并非独立存在；因为对其他主体的理解，反过来会增强对该主体的理解。
通过上述观察，可发现行为数据涉及到多个主体。在数据归属性上，原则上可以说是属于整个数据行为参与的各个主体。

2、数据价值影响因素

当初步讨论完数据归属问题后，我们开始进行数据价值的探索。
如仅仅为行为数据本身，其并不代表具体的价值；因为不同平台从中提炼出来的价值是不一样的。比如A平台看见的是一位消费者购买了一杯饮料；B平台记录的是这位消费者购买了一杯咖啡，他是一个咖啡的爱好者；C平台甚至可以了解买的星巴克，知道品牌偏好，买的美式还是拿铁，对口味有深入了解；D平台深入挖掘，发现下午两点钟有买咖啡的习惯等等——通过这个例子，是想说明数据价值的挖掘，与平台技术投入密不可分。不同的平台，通过技术影响到对体系建设、对数据价值挖掘。所以本身数据的价值跟平台的投入平台技术实力都是密切相关。
不难看出，行为数据，涉及到了多个数据主体。也就是这类数据归属问题，不能简简单单用一个单一的主体来概括。正因为如此，我们发现数据产生的场景与它应用场景是不一样的——数据产生的场景，是因为这个消费者买了这杯咖啡，但是我们今天可以把这个行为数据应用在不同的场景里面，包括他的购物习惯、生活习惯等等。也就是数据的产生的场景，跟应用的场景是可以完全不一样的。数据只有在更多的场景里面进行应用，那它的价值才能得到发挥，得到不断的扩展。

3、保护谁的数据权益

同时，数据有很强的不可分离性。也就是不能把一个人买了一杯咖啡的行为，分割成单服务或分割成个体信息，所以对数据的应用，或多或少都会对所有参与这条数据的主体都会造成影响。所以我们今天在做数据分享数据流通的过程当中，是要保护所有数据主体或数据参与方的权益。
具体的讲，我们站在消费者角度比较容易理解：如何保护消费者的隐私，通过数据分享能为消费者带来更多的权益。同时在平台角度，平台做了大量技术投入，通过数据的流通，也希望能保护平台方的知识产权，以及依法进行相应监管。

4、算法伦理

讨论完数据归属问题，还有另外一个非常有挑战非常有意思的问题，我们称之为算法能力：应用数据后对算法产生的影响。这个范畴包括了可解释性、公平性、以及一系列的隐私保护。

公平性这个问题在社会学、经济学有非常深入的研究。我们使用一个小小的卡通来展示社会学在这方面的思考：有三个不同身高的小孩，他们都希望通过一个栅栏，能够观看足球赛，今天平台对他们的处理，可以有不同的方法：

第一种方法，治理均等，也就是对于每一位主体采用同样对待，一视同仁，他们都想看得更高，都想观看足球赛的时候，给予同样的处理，要么大家都有同样的垫高小板凳，要么没有。
第二个是结果平等。个头比较矮的小朋友，我们给他多垫高一点，让每一位小朋友都能看到比赛，也就是说结果平等。
还有一种方式，是我们希望找到影响不同个体的决策因素，把这些决策因素去掉，这样也可以使不同的个体，能面对平等的对待，也就是过程正义。这个例子来讲，就是把围栏变成网格，不再需要通过垫高的方式观看比赛，从而也是解决了平等问题。

今天运用到人工智能、运用到算法，我们的挑战是如何把社会学、经济学的思考，能够映射到数学模型，映射到算法方面。
其实我们在算法层面的思考，跟社会学经济学的思考有非常强联系。如算法中常提到的个体公平，也就是对于相似个体，希望能得到相似结果，这跟社会学的治理平等是比较一致。算法经常讲到群体公平，一个相似的群体，得到的模型结果，甚至得到的模型精度都是类似的，这与整个社会学里面的治理均等、结果平等比较类似。还有一种因果公平，也就是希望算法，不是因为一些个性化因素，一些敏感因素而受到强烈波动，比如消费者的年龄、性别等因素并不作为算法决策的重要的依据。
所以站在算法角度，其公平性、可解释性、隐私三者相辅相成。
首先我们聊聊公平和隐私。不同模式下，隐私也有不同含义；讲个体公平，隐私更多理解类似差分隐私场景；讲群体公平，所谓隐私，就是今天越是小规模的群体，越有暴露隐私的风险。
再聊聊可解释性和隐私。其两者在某些程度上存在矛盾，举个例子，今天讲到模型可解释性，往往需要把一些模型的决策点能够逐渐暴露出来。但随着把模型的决策点以及边界条件暴露出来，实际上也是暴露了一些人的隐私。从模型的结果可推测到一些人的属性——所以如何权衡，也是当下需研究的一个很好的课题。
另外可解释性和算法公平是相互促进关系。随着算法从一个黑盒变成白盒，慢慢引入可解释能力，可督促我们实现算法是无歧视的，通过公平性，敦促算法具有公平性的一方面的属性。

二、数据的开放流通包含三个层次

讲完了数据的特性和算法的伦理，我们再来探讨下，看看数据怎么交流、怎么产生价值？
这里简单归纳为三个层次：

第一个层次：仅涉及到个人数据的生产和融合，往往涉及到一个个体或平台，或平台通过观察的方式，积累个人行为数据。今天大家在电商平台，或者今天在看新闻看抖音等，都是属于这样一个场景，也就是说平台可以观察个体的行为，能够产生一些个体的数据。
第二层涉及到机构之间数据的互相交流，比较典型的例子是银行可通过用户信息的流通，不断提升风控能力，避免系统性风险。
第三层次，是数据能进入流通的生态，这样会有数据的提供方、数据的消费者，这中间有一系列的机制，保证数据隐私、数据安全，同时也能提供更好的数据服务。

1、个人数据的生产融合

今天主要讨论前面两个层次。
首先是个人数据生成和融合。这类场景会涉及到数据采集、模型训练，如何从数据挖掘核心信息，产生个性化模型，最终模型得到使用、影响决策。这是一个比较长的链路，需在整个过程中关注如何保护个人隐私。往往保护从产品设计就开始考虑，从整个产品链路，做到事前授权、事后审计。采集过程也需以最小集采集为原则，而不是随意的、无明确范畴采集，这方面引入差分隐私、数据脱敏等技术。在建立模型后，还需进行验证，确保模型可信——这方面有差分隐私可解释性的技术。
随着互联网高速发展，进入到新阶段：云端协同。如今很多消费者都会有一个手机或电脑，大多行为在端上发生，模型很多在云上进行大规模机器学习训练产生，这样的体系我们称之为云端协同。在过程间，做到数据使用的同时，能不采集尽量不采集。也就是说今天我们在端上的时候，再去理解用户的行为的同时，去做初步的数据筛选、数据清洗等等。这些清洗后的数据，再到云端融合其他数据，产生新的模型计算。整个过程当中，我们并没有把用户的行为存储起来，真正的做到使用，能够为消费者提供更好的权益，但是并没有存储下来。
在这个框架里，比较典型的是联邦学习，它可以说是一个分布式学习框架。在数据采集后，不出域的原则。也就是我们今天可以把很多原型计算，放到每一个端上，通过协同方式，去创建联合学习模型。这方面也会通过差分隐私、可信执行环境等等技术，去加强整个数据保护的能力。

2、机构数据的开放流通

涉及机构之间的数据互通，就是刚才讲到银行通过用户信息互通，提高风控能力等。通过各机构之间信任关系、网络状态、数据量以及模型复杂度等，可分为下面几个类别：

1、最直接的，集中式模式，也就是数据各个机构、参与方能够把数据汇总到集中式环节里进行模型训练，进行整个认知智能的探索。这需有一个很强的信任关系在里面，这种强信任关系，可通过政府监管、合约条款等实现，还可通过技术、加密硬件实现，也就是前面提到的可信执行环境，包括比较典型的Intel的SGX，或者一个小的特定集群来提供高效的数据融合。这种方式好处是效率高，数据融合在一个主体，就可进行非常复杂的计算，且效率高、没有网络延迟等。但它的难点，是如何搭建起可信环境。所以在实践中，我们会延展到另外一种场景，也就是我们讲到的去中心化模式。
2、去中心化模式，所有的模型训练是分布式执行：数据提供方，也是计算参与方。通过多方的协同，来进行联合训练，联合学习。技术就会涉及到多方安全计算、同态加密等。在计算过程中做加密，虽然带来了安全性保障，对性能也提出了很大挑战。该模式可做到安全可证，但同时会为性能付出代价，比如在模型规模、复杂度等方面，会遇到对应挑战。
3、集中式模式和去中心化模式之间，还有一种中间状态，就是我们经常提到的联合计算模式。这个模式里，每方都会参与到模型计算，同时我们引入了中间层，也就是一个中心化模块的概念，这个模块可协调相应计算、模型训练，比较具有代表性的是联邦学习，包括拆分学习、差分隐私等，都属于联合计算学习框架。在这个框架里，通过差分隐私来加密各个模块与中心化模块之间的通信。以信息论为基础，我们可以度量任何一个信息交互所可能带来的个人隐私风险，称之为可度量模式，也就是个人隐私在联邦学习环境中计算，所带来的一系列风险是可度量的。
总结下，我们可以把机构之间的开放、流通，可归纳为可信环境，可证，可度量的环境。

三、开放智能技术总览

当我们了解了数据的特性，也了解了数据流通的各种场景，接下来会讲一讲相关技术领域，如何去保证在各种复杂场景里，如何保证数据安全及隐私保护。
首先需要跟大家介绍一个名词：开放智能。开放智能代表的是所有在这一系列的数据中间，所涉及到的一系列数据技术，统称为开放智能。大家可以看到这个领域非常复杂，也非常具有挑战——整个开放智能中，会面临多个数据主体，包括个人、企业，甚至政府，每一类的主体意愿不一样，诉求不一样。个人层面想做到隐私保护，企业诉求是希望保护自己的知识产权，政府关注社会利益最大化。而开放智能的目标，是希望激励开放的意愿，同时避免数据歧视、算法垄断等。
我们可把这些技术分为五类：

第一类是底层数据，这层会去解决数据授权的问题。
第二类涉及到计算，包括提到的可信计算、可度量计算、可证计算，这些通过计算模式解决隐私保护问题。
第三层为算法层，解决合规合法、算法伦理、鲁棒性等问题。
在此之上还有市场，如何通过激励机制、定价等，促进形成良好生态。
最后是可验证技术，当模型训练出来，需确保模型实现的的确是我们需要它做的事情，所以还要可验证技术。

以此为基础，蚂蚁推出了隐私计算框架。该框架为分布式计算系统，统一的计算框架来解决刚提到的诸多挑战。
该框架有两个层次，今天我们可以通过对整个执行图的一系列优化，能够自动编成秘态计算图。同时计算的每一个PPU(Privacy Preserving Unit)，分布在不同参与方，也就是说每个联合计算参与方里，都会部署一个Service；每一个PPU提供可信可证可度量的模式。把这样一个联合数据训练的过程，自动编译，分布到不同主体里进行计算，联合训练成一个可信模型。整个体系结构，具有几个特点：

首先是可扩展性，因为今天任何当前主流的机器学习的框架，甚至计算框架都可在上面能够得到很好支持，上层可对接包括TF、Pytorch、JAX在内的多种主流机器学习框架，以及SQL前端；下层可以插拔包括SS、HE、GC在内的多种安全协议。
其次是隐私保护能力，支持包括可信安全、可度量安全和可证安全在内的多种隐私计算能力。
目前隐私计算最大的问题在于性能瓶颈，正因如此，我们在通讯各个方面，做了大量的优化，整个系统能提供优秀的计算性能，包括Platform + PPU的双层设计可以提供分层优化能力，提供业界顶尖的计算性能和计算规模。

四、开放智能在个人信贷场景中的应用

刚讲到的是各种技术，因时间关系，我们这里只讲一个典型应用。
今天我们在银行这个个人处理贷款的时候，往往银行为了降低风险，会理解这位用户当前在银行里面各种行为，包括购买过什么基金，使用过什么金融产品，日常消费流水等。这个过程需要全链路健全机制的保障，需在用户授权情况下做分析；最终分析结果为帮助我们能提供更好的数据的服务。同时，银行会发现，如果只是分析该用户在本银行数据，往往不够，所以为降低相应风险，为消费者提供更好的服务，需融合更多银行之间的数据，甚至在其他场景的行为进行联合建模，降低银行系统风险。
为实现上述效果，就会涉及到多方安全计算。当联合计算后，还需做验证，确保每个数据参与方，真正完成了它所需要做的计算，而不是说某一方为虚假计算，也就是可验证计算。当产生模型后，因为不能是黑盒状态，需要可解释，要面向消费者进行告知：为什么今天要带这么多款，涉及到可解释问题。涉及到不能因为性别、年龄就对用户做了特殊处理，在这一环节也需确保算法在里是公平的。以及非常重要的监管，所以要有存证、审计的能力——这样一个简单的例子，一下就串联起来开放智能技术的方方面面。因为时间关系，我们今天只讲这样一个例子。最后，开放智能今天提到的这个概念，是个非常泛的技术体系，涉及到了数据鉴权、隐私计算、可信赖AI、市场机制。这里面就像刚刚主持人提到的这是一个非常崭新的领域，还有很多领域的技术需我们一起去探讨，去创新，我们也希望大家一起加入我们，跟我们一起探索新的领域，不断的做技术创新。谢谢大家。

靖人：开放智能——数据流通下的数据安全和数据隐私

一、从数据特性看数据流通

1、多数据主体

2、数据价值影响因素

3、保护谁的数据权益

4、算法伦理

二、数据的开放流通包含三个层次

1、个人数据的生产融合

2、机构数据的开放流通

三、开放智能技术总览

四、开放智能在个人信贷场景中的应用

开发者学习资源库

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

靖人：开放智能——数据流通下的数据安全和数据隐私

一、从数据特性看数据流通

1、多数据主体

2、数据价值影响因素

3、保护谁的数据权益

4、算法伦理

二、数据的开放流通包含三个层次

1、个人数据的生产融合

2、机构数据的开放流通

三、开放智能技术总览

四、开放智能在个人信贷场景中的应用

开发者学习资源库

热门文章

最新文章

相关课程

相关电子书

相关实验场景