数据脱敏平台-大数据时代的隐私保护利器

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 什么是数据脱敏 又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。
什么是数据脱敏

又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


  


数据脱敏的重要性

1)敏感数据泄露风险与日俱增

敏感数据泄露是全球最普遍存在的安全事件,核心业务系统的数据投放到开发、测试、培训及共享等二级数据应用环境,大数据应用开发环境存在许多数据资源,软件开发与运维厂商众多,数据安全管理意识淡薄,在数据趋利的时代,极易引发敏感数据从非生产环境泄露的风险,带来不可估量损失。


2)遵从安全合规性要求需要

国家总局总行级别机构出台各类监管条例,对数据安全合规性提出要求。如《信息安全等级保护管理办法》、《网络安全法》、《公共及商用服务信息系统个人信息保护指南》、金融业《商业银行信息科技风险管理指引》等对数据安全提出明确规范。《信息安全等保三级标准》指出“应用系统必须提供敏感标记设置功能”、“依据安全策略严格控制用户对有敏感标记重要信息资源的操作”。刑法对数据安全防护缺失的处罚指出“不采取安全技术措施导致严重数据安全事件,处1-3年有期徒刑,特别严重的判处3-7年有期徒刑”


3)数据泄露影响大

政务信息安全关系国家安全和机密、社会稳定。各领域数据资源具有资源多、广、全、散,涉密高,一旦泄露则侵犯隐私、社会影响大、公信力及声誉受损。


  


大数据时代的脱敏要求

随着大数据时代的来临,大数据、云计算、人工智能等新技术应用的不断深化,为数据的深度挖掘、分析提供强有力的支撑,大数据中蕴含的巨大价值被逐步挖掘出来。但是同时也带来隐私、敏感信息保护方面的棘手难题。如何在实现数据高效共享、分析挖掘的同时,保护敏感及隐私信息不被泄露对脱敏作业提出了更高的要求。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

1. 大数据处理能力

大数据的核心特性便是数据体量巨大,数据量从TB级别跃升到PB级别。传统脱敏工具无法完成如此海量数据的抽取、脱敏、投递作业。


2. 兼容大数据存储

传统脱敏工具多用于关系型数据库结构化数据的脱敏作业,对大数据平台(如阿里云MaxCompute、星环TDH等)不兼容,缺乏对大数据平台的数据脱敏能力。


3. 广泛的分发模式

数据的交换和共享越来越频繁,库到库的脱敏数据投递模式已不足以支撑日益多元化的数据分发场景,必须进一步扩展支撑库、文件、大数据平台三者间的任意分发模式。


4. 作业规范与监控

数据越集中,数据的安全管控就越重要,对数据的操作就越需慎重。数据分析利用日趋频繁,作业过程缺乏统一规范和监控易引发数据泄露和数据丢失等安全事故,必须采用必要的手段实现数据脱敏作业统一规范、过程可控。


  


华云慧通数据脱敏平台

针对业务系统和大数据平台,对其数据资源中的敏感信息进行脱敏保护,高效投递到开发、测试、培训、共享等二级数据服务环境,满足用户方IT建设的数据多样化需要,达到数据安全管控的要求。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


平台核心技术特性

1)识别、脱敏、数据投递一体化

自动化识别敏感数据范围,提高脱敏目标精准性,广泛的兼容不同数据库类型,一对多的脱敏拓扑结构,自动化高效的实施脱敏,提高运维能力。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

 

2)敏感数据发现

结合关键字、语义特征,自动化地敏感数据发现,从而降低数据风险,提高安全效率。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


3)支持大数据、关系库、文件源

广泛的兼容性,支持Oracle、Mysql等关系型数据库脱敏,也支持大数据平台例如阿里云ODPS库、星环TDH库的数据脱敏,支持文件源的数据脱敏,从而满足客户不同数据环境下的脱敏投递需求.


4)保持业务关联

在数据脱敏的同时,保持数据隐含业务规则的有效性,不破坏数据的业务规则。同时保持数据之间的一致性关联逻辑,确保脱敏后数据的可用性。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


5)配置灵活资源沉淀

摒弃脚本配置的传统模式,实现脱敏作业图形配置、敏感识别策略可维护可扩展,脱敏算法可维护可扩展可在线测试,提高平台兼容性和扩展性。将任务配置信息、敏感识别策略、脱敏算法等元数据沉淀,支撑不同环境的脱敏配置,最大化复用。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=  

6)内置税务领域常见脱敏规则

可高效地完成不同省份税务领域数据脱敏的实施工作。


核心功能介绍

1)任务配置

支持图形化配置及轻量级脚本两种模式。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


2)敏感数据发现

多种敏感识别策略实现敏感数据的主动扫描,支持自定义扫描任务、扫描任务管控及扫描结果人工核准等功能。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


3)运维管理

可视化运维界面,支持运行状态查看、作业启停等状态控制、日志跟踪查看、调度管理等功能。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


4)敏感识别策略管理

提供给脱敏作业人员进行敏感词维护、敏感识别策略维护及启停控制等功能,实现识别策略的可扩展。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


5)脱敏算法管理

支持脱敏算法的启停控制、新增维护、在线测试功能及脱敏模板维护功能。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


6)监控&分析

提供图表结合的监控仪表盘,对全局脱敏作业任务进行实时监控,不同维度监控运行状态。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=





文章转自:华云慧通


更多交流咨询欢迎加入“MaxCompute开发者社区”钉钉群,群号: 11782920,或扫描二维码入群。

https://www.aliyun.com/product/odps
image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
存储 大数据 API
大数据隐私保护策略:加密、脱敏与访问控制实践
【4月更文挑战第9天】本文探讨了大数据隐私保护的三大策略:数据加密、数据脱敏和访问控制。数据加密通过加密技术保护静态和传输中的数据,密钥管理确保密钥安全;数据脱敏通过替换、遮蔽和泛化方法降低敏感信息的敏感度;访问控制则通过用户身份验证和权限设置限制数据访问。示例代码展示了数据库、文件系统和API访问控制的实施方式,强调了在实际应用中需结合业务场景和平台特性定制部署。
1336 0
|
2月前
|
搜索推荐 OLAP 流计算
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
38 1
|
2月前
|
数据可视化
Echarts数据可视化大屏开发| 大数据分析平台
Echarts数据可视化大屏开发| 大数据分析平台
|
3月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
|
4月前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
256 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。

相关产品

  • 云原生大数据计算服务 MaxCompute