数据经济价值与监管合规的功守道
2020年4月份,国务院发布《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,指出数据成为继土地、劳动力、资本、技术后的第五大生产要素,明确了数据的经济主体地位。《意见》指出需要推进数据开放共享,加强数据资源整合及保护。2022年1月中国政府网发布《国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知》,《通知》指出探索“原始数据不出域、数据可用不可见”的交易范式。以上,宏观政策层面为数据的开放及技术手段指明了方向。
另外一方面,随着《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》组成的数据安全立法体系实施以及《网络安全审查办法》最新修订以数据安全为中心,我国自上到下正在建立层次分明、重点突出的数据安全法规监管体系,针对侵害个人信息行为的相关监管也呈现出多部门监管、执法常态化等特点。
一方面是明确数据的经济主体地位及加大开放,而另一方面是推进各种立法及监管,看似矛盾的背后其实有非常强的政策指向性:
- 数据需要流通整合才会有更大经济价值
- 传统的粗放式直接明文或简单加密分享已行不通
- 数据流通共享需要被有效监管,应该满足最小化合理必要且安全措施得当
监管合规要点与隐私技术
数据安全监管的核心很大一块是个人隐私数据的使用和保护,因此我们基于《中华人民共和国个人信息保护法》来探讨个人信息应用的合规及挑战。为了具象讨论,我们以滑雪场A公司和电商B公司来举例说明。
如果,A公司把数据分享给B公司,其面临的数据合规及商业价值保护挑战有:
- A公司需要会员同意,通常情况下,基于消费者个体隐私保护意识,很难取得消费者同意授权;
- A公司需要防止B公司窃取用户数据,个人信息被泄露需要受到严厉处罚,同时如何防止B公司转移数据商业价值。
现在假设有一种方式,A公司与B公司的数据都是密态的,数据是明文不可见的,双方都没有手段直接看到对方明文,但仍然可以在密态的情况下能进行和明文能做的计算保持一致,且双方能通过技术手段管控只能做以下约定的两种应用场景:
- 数据统计:B公司对A公司的某区域滑雪爱好者进行人数统计,以确定当地赛事准备多少滑雪装备交付给A公司。
- 联合建模:通过样本训练算法预估B公司还有多少会员是滑雪爱好者。
第1个场景,由于B公司只输出了统计信息,而统计信息是无法反推出个体,满足匿名化应用的合规要求。第2个场景,通过数据可用不可见做预测,B公司没有获取A公司具体特征信息,甚者可以不知道A公司的特征是哪些。
以上具体场景,借助了隐私增强计算技术能够做到匿名化和特征属性不可见应用。当前,隐私增强计算技术,在数据保护和大数据性能上已经达到了业务应用的状态,如下总结了部分合规要点与隐私技术的关切点:
图:隐私增强计算技术与隐私保护、数据安全的关切点
说明:隐私增强计算技术,是一类技术的统称,用于数据融通共享处理过程中的数据安全与隐私保护。它能进行的计算方式有:安全匹配、联合分析、联合建模、联合预测。
数据共享应用场景化合规设计思考
在涉及多方间的数据共享应用时,隐私计算只是解决合规关切点中的一部分。实际上,数据合规与监管涉及的链路:从哪里来(来源的合法性)、做什么处理(场景明确、数据可用不见)、要到哪里去(业务活动审计)。
如下图,为隐私计算联盟、中国信通院云大所发布的《隐私计算法律与合规白皮书》中的隐私计算法律与合规关注要点:
图:隐私计算法律与合规关注要点
在企业间数据应用时,基于法理依据如数据委托处理规则,企业之间应该签订相应的商务合作协议,确保数据来源的合理性、约定数据应用的场景以及数据融通处理的技术手段、违反约定的处理措施、有条件的话需要互相开放融合结果用于业务活动的应用审计。目前,隐私计算平台提供方,在数据融合计算时,也开放了数据处理日志审计以用于合作多方或者开放给第三方监管审计,做到能自证。
以下,收集了部分数据应用场景合规设计实践参考(不作为指导意见):
场景 |
融合结果类型 |
技术处理手段 |
合作合规法理依据 |
信息匹配 |
具体信息 |
技术:PSI 处理:确保双方互相不知晓对方信息逻辑,防止个体标签属性被推理。 |
基于《个保法》委托处理 + 信息去标识化、匿名化,合作方间签订相关协议,约定来源合法性、处理方式、应用场景,并开放互相审计。 |
统计分析结果 |
群体预计 |
技术:TEE/MPC+(L)DP 处理:双方以密态方式通过TEE安全计算或者通过MPC协议计算,只输出了统计结果值,无法反推个体; 另外需要防止恶意攻击,如通过差分攻击恶意推导个体标签。 |
基于《个保法》委托处理 + 群体统计结果满足匿名化非个人信息,合作方间签订相关协议,约定来源合法性、处理方式、应用场景、并开放互相审计。 |
算法知识结果 |
预测 |
技术:FL/MPC 处理:原始数据不出域,通过FL/MPC进行模型间的迭代,模型中间迭代参数通过DP/HE/MPC保护。 |
基于《个保法》委托处理 + 算法中间结果满足匿名化非个人信息,合作方间签订相关协议,约定来源合法性、处理方式、应用场景、并开放互相审计。 |
以上合规实践设计,仍然需要与监管机构、业务方不断探索优化。在实际落地时,需要引入法务和安全的同学对具体业务场景必要性及合规安全方案反复推敲。我们相信在数据要素生产力、数字经济的政策引领下,在新技术的不断发展下,一定会推动数据安全合规的流通起来,释放数据的商业价值。
隐私增强计算平台DataTrust
DataTrust是行业领先的基于可信执行环境(Trusted Execution Environment,TEE)、安全多方计算(Secure Multi-Party Computation,MPC)、联邦学习(Federated Learning,FL)、差分隐私(Differential Privacy,DP)等隐私增强计算(Privacy Enhancing Technique)技术打造的隐私增强计算平台,在保障数据隐私及安全前提下完成多方数据联合分析、联合训练、联合预测,实现数据价值的流通,助力企业业务增长。
数据中台是企业数智化的必经之路,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。
官方站点:数据中台官网 https://dp.alibaba.com
钉钉沟通群和微信公众号