第2讲 隐私计算开源如何助力数据要素流通

简介: 数据流通涉及关键主体:数据提供方关注商业秘密、个人隐私、数据控制与安全;数据消费方关注授权链与合规性;数据平台方提供主体审核、授权链审查、合规评审及商业秘密保护,初期依赖主体可信,需逐步转向技术可信。关键技术包括隐私计算实现数据可用不可见,数据空间+区块链确保数据可控可计量,以及数据匿名化实现可算不可识。

1、数据要素流通中的关键主体,以及各自的忧虑
关键主体至少有3个:数据提供方、数据消费方、数据平台方。
1.1 数据提供方
最担心的是如下几点:
• 商业秘密和个人隐私保护;
• 数据使用权力的控制;
• 数据安全和合规;
如果数据被数据消费方拷贝走,让数据价值迅速降低;如果用在非合规场景,则要付连带责任;
1.2 数据消费方
最担心的是如下几点:
• 数据提供方的数据是否有足够的授权链;
• 数据使用是否合规;
1.3 数据平台方
数据平台方,是为了解决数据提供方和数据消费方的疑虑出现的。
主要提供的核心价值:
• 主体审核
• 数据源授权链路审核
• 场景合规评审
• 数据使用过程中的商业秘密保护;
• 在数据交易中不失去对数据的控制;
在第一阶段,数据平台方主要靠【主体可信】,往往是国有企业身份。但这是不够的,要逐渐从【主体可信】向【主体可信+技术可信】发展。
2、技术可信的关键技术
2.1 数据可用不可见
主要是通过数据转为密态计算来实现,隐私计算是解决这一问题的关键技术。
2.2 数据可控可计量
可以通过数据空间技术+区块链技术实现。数据空间技术可以参考IDSA的相关资料。区块链技术主要用于数据使用记录的存证。
2.3 数据可算不可识
主要通过数据匿名化实现,比如手机号通过加盐+sha256等方式转为非明文。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 供应链 安全
【区块链】智能交易模式下的数据安全流通模型
【区块链】智能交易模式下的数据安全流通模型
824 1
|
SQL 数据库
nested exception is dm.jdbc.driver.DMException: 字符串截断
nested exception is dm.jdbc.driver.DMException: 字符串截断 问题处理
|
机器学习/深度学习 算法 安全
隐私计算训练营第三讲-详解隐私计算的架构和技术要点
SecretFlow 是一个隐私保护的统一框架,用于数据分析和机器学习,支持MPC、HE、TEE等隐私计算技术。它提供设备抽象、计算图表示和基于图的ML/DL能力,适应数据水平、垂直和混合分割场景。产品层包括SecretPad(快速体验核心能力)和SecretNote(开发工具)。算法层涉及PSI、PIR、数据分析和联邦学习(水平、垂直、混合)。此外,SecretFlow还有YACL密码库和Kusica任务调度框架,Kusica提供轻量化部署、跨域通信和统一API接口。
855 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
AI产品经理的技术必修课:从工具应用到系统设计
AI产品经理的技术必修课:从工具应用到系统设计
766 84
|
编解码 人工智能 并行计算
基于 Megatron 的多模态大模型训练加速技术解析
Pai-Megatron-Patch 是一款由阿里云人工智能平台PAI 研发的围绕英伟达 Megatron 的大模型训练配套工具,旨在帮助开发者快速上手大模型,打通大模型相关的高效分布式训练、有监督指令微调、下游任务评估等大模型开发链路。本文以 Qwen2-VL 为例,从易用性和训练性能优化两个方面介绍基于 Megatron 构建的 Pai-Megatron-Patch 多模态大模型训练的关键技术
|
存储 并行计算 算法
Dask 在科学计算中的角色:加速科研数据分析
【8月更文第29天】在科学研究中,处理和分析大规模数据集的能力对于取得突破性成果至关重要。Dask 是一个灵活的并行计算库,能够与 Python 的科学计算生态系统无缝集成,为科研人员提供了高效处理大规模数据集的手段。本文将介绍如何使用 Dask 加速科研数据分析,并通过具体的代码示例展示其在实际场景中的应用。
549 0
|
人工智能 自然语言处理 算法
DeepSeek大模型在客服系统中的应用场景解析
在数字化浪潮下,客户服务领域正经历深刻变革,AI技术成为提升服务效能与体验的关键。DeepSeek大模型凭借自然语言处理、语音交互及多模态技术,显著优化客服流程,提升用户满意度。它通过智能问答、多轮对话引导、多模态语音客服和情绪监测等功能,革新服务模式,实现高效应答与精准分析,推动人机协作,为企业和客户创造更大价值。
978 5
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
809 7
【AI系统】数据并行
|
人工智能 搜索推荐 安全
智能家居:AI如何让我们的生活更便捷
智能家居:AI如何让我们的生活更便捷
673 7