新监管形势下的数据流通合规技术解最新探究 (连载一)

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 新监管形式下,数据的合规合理应用和数据安全是大家密切关注和探讨的话题点,而DataTrust隐私增强计算平台,能在保障数据隐私及安全前提下完成多方数据联合分析、联合训练、联合预测,实现数据价值流通,本系列内容将陆续为大家介绍其背后的工程框架和及业内隐私计算技术。

数据经济价值与监管合规的功守道


2020年4月份,国务院发布《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,指出数据成为继土地、劳动力、资本、技术后的第五大生产要素,明确了数据的经济主体地位。《意见》指出需要推进数据开放共享,加强数据资源整合及保护。2022年1月中国政府网发布《国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知》,《通知》指出探索“原始数据不出域、数据可用不可见”的交易范式。以上,宏观政策层面为数据的开放及技术手段指明了方向。


另外一方面,随着《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》组成的数据安全立法体系实施以及《网络安全审查办法》最新修订以数据安全为中心,我国自上到下正在建立层次分明、重点突出的数据安全法规监管体系,针对侵害个人信息行为的相关监管也呈现出多部门监管、执法常态化等特点。


一方面是明确数据的经济主体地位及加大开放,而另一方面是推进各种立法及监管,看似矛盾的背后其实有非常强的政策指向性:

  • 数据需要流通整合才会有更大经济价值
  • 传统的粗放式直接明文或简单加密分享已行不通
  • 数据流通共享需要被有效监管,应该满足最小化合理必要且安全措施得当

image.png

image.gif



监管合规要点与隐私技术



数据安全监管的核心很大一块是个人隐私数据的使用和保护,因此我们基于《中华人民共和国个人信息保护法》来探讨个人信息应用的合规及挑战。为了具象讨论,我们以滑雪场A公司和电商B公司来举例说明。


如果,A公司把数据分享给B公司,其面临的数据合规及商业价值保护挑战有:

  • A公司需要会员同意,通常情况下,基于消费者个体隐私保护意识,很难取得消费者同意授权;
  • A公司需要防止B公司窃取用户数据,个人信息被泄露需要受到严厉处罚,同时如何防止B公司转移数据商业价值。


现在假设有一种方式,A公司与B公司的数据都是密态的,数据是明文不可见的,双方都没有手段直接看到对方明文,但仍然可以在密态的情况下能进行和明文能做的计算保持一致,且双方能通过技术手段管控只能做以下约定的两种应用场景:

  1. 数据统计:B公司对A公司的某区域滑雪爱好者进行人数统计,以确定当地赛事准备多少滑雪装备交付给A公司。
  2. 联合建模:通过样本训练算法预估B公司还有多少会员是滑雪爱好者。


第1个场景,由于B公司只输出了统计信息,而统计信息是无法反推出个体,满足匿名化应用的合规要求。第2个场景,通过数据可用不可见做预测,B公司没有获取A公司具体特征信息,甚者可以不知道A公司的特征是哪些。


以上具体场景,借助了隐私增强计算技术能够做到匿名化和特征属性不可见应用。当前,隐私增强计算技术,在数据保护和大数据性能上已经达到了业务应用的状态,如下总结了部分合规要点与隐私技术的关切点:

image.png

图:隐私增强计算技术与隐私保护、数据安全的关切点

说明:隐私增强计算技术,是一类技术的统称,用于数据融通共享处理过程中的数据安全与隐私保护。它能进行的计算方式有:安全匹配、联合分析、联合建模、联合预测。



数据共享应用场景化合规设计思考




在涉及多方间的数据共享应用时,隐私计算只是解决合规关切点中的一部分。实际上,数据合规与监管涉及的链路:从哪里来(来源的合法性)、做什么处理(场景明确、数据可用不见)、要到哪里去(业务活动审计)。

如下图,为隐私计算联盟、中国信通院云大所发布的《隐私计算法律与合规白皮书》中的隐私计算法律与合规关注要点:

image.png

图:隐私计算法律与合规关注要点


在企业间数据应用时,基于法理依据如数据委托处理规则,企业之间应该签订相应的商务合作协议,确保数据来源的合理性、约定数据应用的场景以及数据融通处理的技术手段、违反约定的处理措施、有条件的话需要互相开放融合结果用于业务活动的应用审计。目前,隐私计算平台提供方,在数据融合计算时,也开放了数据处理日志审计以用于合作多方或者开放给第三方监管审计,做到能自证。


以下,收集了部分数据应用场景合规设计实践参考(不作为指导意见):

场景

融合结果类型

技术处理手段

合作合规法理依据

信息匹配

具体信息

技术:PSI

处理:确保双方互相不知晓对方信息逻辑,防止个体标签属性被推理。

基于《个保法》委托处理 + 信息去标识化、匿名化,合作方间签订相关协议,约定来源合法性、处理方式、应用场景,并开放互相审计。

统计分析结果

群体预计

技术:TEE/MPC+(L)DP

处理:双方以密态方式通过TEE安全计算或者通过MPC协议计算,只输出了统计结果值,无法反推个体;


另外需要防止恶意攻击,如通过差分攻击恶意推导个体标签。

基于《个保法》委托处理 + 群体统计结果满足匿名化非个人信息,合作方间签订相关协议,约定来源合法性、处理方式、应用场景、并开放互相审计。

算法知识结果

预测

技术:FL/MPC

处理:原始数据不出域,通过FL/MPC进行模型间的迭代,模型中间迭代参数通过DP/HE/MPC保护。

基于《个保法》委托处理 + 算法中间结果满足匿名化非个人信息,合作方间签订相关协议,约定来源合法性、处理方式、应用场景、并开放互相审计。


以上合规实践设计,仍然需要与监管机构、业务方不断探索优化。在实际落地时,需要引入法务和安全的同学对具体业务场景必要性及合规安全方案反复推敲。我们相信在数据要素生产力、数字经济的政策引领下,在新技术的不断发展下,一定会推动数据安全合规的流通起来,释放数据的商业价值。



隐私增强计算平台DataTrust

DataTrust是行业领先的基于可信执行环境(Trusted Execution Environment,TEE)、安全多方计算(Secure Multi-Party Computation,MPC)、联邦学习(Federated Learning,FL)、差分隐私(Differential Privacy,DP)等隐私增强计算(Privacy Enhancing Technique)技术打造的隐私增强计算平台,在保障数据隐私及安全前提下完成多方数据联合分析、联合训练、联合预测,实现数据价值的流通,助力企业业务增长。




数据中台是企业数智化的必经之路,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。


官方站点:数据中台官网 https://dp.alibaba.com

钉钉沟通群和微信公众号

双二维码图.jpg

相关文章
|
Kubernetes 安全 API
Cilium 系列 -3-Cilium 的基本组件和重要概念
Cilium 系列 -3-Cilium 的基本组件和重要概念
|
1月前
|
缓存 自然语言处理 PyTorch
114_预训练:Masked LM优化与动态掩码效率深度解析
在大型语言模型(LLM)的预训练阶段,训练目标函数的设计直接影响模型的学习效率和最终性能。Masked Language Modeling(MLM)作为BERT等模型采用的核心预训练任务,通过随机掩盖文本中的部分token并让模型预测这些被掩盖的token,有效地训练了模型的双向表示能力。然而,传统的静态掩码策略存在重复率高、训练效率低等问题。动态掩码技术的引入显著提升了预训练效率和模型性能。本文将全面探讨MLM优化策略,深入推导动态掩码的效率提升原理,并介绍2025年最新的MLM优化技术,为高效预训练LLM提供理论和实践指导。
|
8月前
|
监控 安全 网络安全
如何让我们的VPS更安全?12个VPS安全防护技巧
在线安全对个人和企业至关重要。通过加强VPS托管安全性,可有效防范网络攻击。本文介绍了12个提升VPS安全的技巧,如使用强密码、更改SSH端口、启用防火墙、定期更新系统、数据备份、使用VPN、限制用户访问等。同时,在选择VPS托管提供商时,应关注免费SSL证书、24/7客户支持、数据备份选项、CDN支持及网络监控等功能。采取这些措施有助于保护业务免受黑客攻击,确保数据安全与业务稳定运行。
339 0
|
安全 区块链 数据安全/隐私保护
第2讲 隐私计算开源如何助力数据要素流通
数据流通涉及关键主体:数据提供方关注商业秘密、个人隐私、数据控制与安全;数据消费方关注授权链与合规性;数据平台方提供主体审核、授权链审查、合规评审及商业秘密保护,初期依赖主体可信,需逐步转向技术可信。关键技术包括隐私计算实现数据可用不可见,数据空间+区块链确保数据可控可计量,以及数据匿名化实现可算不可识。
269 2
|
机器学习/深度学习 算法 安全
隐私计算训练营第三讲-详解隐私计算的架构和技术要点
SecretFlow 是一个隐私保护的统一框架,用于数据分析和机器学习,支持MPC、HE、TEE等隐私计算技术。它提供设备抽象、计算图表示和基于图的ML/DL能力,适应数据水平、垂直和混合分割场景。产品层包括SecretPad(快速体验核心能力)和SecretNote(开发工具)。算法层涉及PSI、PIR、数据分析和联邦学习(水平、垂直、混合)。此外,SecretFlow还有YACL密码库和Kusica任务调度框架,Kusica提供轻量化部署、跨域通信和统一API接口。
594 0
|
安全 Java
Synchronized是怎么实现的?
Synchronized是怎么实现的?
194 8
|
数据采集 测试技术 API
在BrowserStack上进行自动化爬虫测试的终极指南
随着互联网的发展,数据价值日益凸显,爬虫技术成为提取网页信息的关键工具。然而,不同环境下的测试与运行挑战重重,特别是在多浏览器、多平台上保证爬虫的稳定性和兼容性尤为困难。BrowserStack作为领先的跨浏览器测试平台,提供了强大的工具和服务。本文将详细介绍如何在BrowserStack上进行自动化爬虫测试,并结合代理IP技术提升爬虫的隐蔽性和成功率。通过具体步骤和案例分析,展示如何利用Selenium、自定义用户代理和Cookie设置来应对反爬虫机制。本指南旨在为开发者提供实用模板,帮助其在多变的测试环境中构建高效的爬虫系统。
438 1
|
算法 网络安全
阿里云国际设置黑白名单(针对高防实例IP)
阿里云国际设置黑白名单(针对高防实例IP)
|
C# Android开发 iOS开发
一组.NET MAUI绘制的开源控件 - AlohaKit
一组.NET MAUI绘制的开源控件 - AlohaKit
261 0
|
SQL 数据库 开发者
SQL事务处理与并发控制:保障数据一致性的关键——深入探索ACID原则、锁定与乐观并发控制策略,以及高级事务管理技巧
【8月更文挑战第31天】在数据库管理和应用开发中,确保数据一致性至关重要。SQL事务处理和并发控制是实现这一目标的关键技术,它们保证了多用户同时访问和修改数据时数据库的一致性和准确性。事务处理遵循ACID原则(原子性、一致性、隔离性和持久性),并发控制则通过锁定和乐观并发控制等策略管理多用户访问,防止数据冲突。本文将深入探讨这些技术的原理与应用,帮助开发者更好地保护数据。
296 0