数据脱敏平台-大数据时代的隐私保护利器

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 什么是数据脱敏 又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。
什么是数据脱敏

又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。


  


数据脱敏的重要性

1)敏感数据泄露风险与日俱增

敏感数据泄露是全球最普遍存在的安全事件,核心业务系统的数据投放到开发、测试、培训及共享等二级数据应用环境,大数据应用开发环境存在许多数据资源,软件开发与运维厂商众多,数据安全管理意识淡薄,在数据趋利的时代,极易引发敏感数据从非生产环境泄露的风险,带来不可估量损失。


2)遵从安全合规性要求需要

国家总局总行级别机构出台各类监管条例,对数据安全合规性提出要求。如《信息安全等级保护管理办法》、《网络安全法》、《公共及商用服务信息系统个人信息保护指南》、金融业《商业银行信息科技风险管理指引》等对数据安全提出明确规范。《信息安全等保三级标准》指出“应用系统必须提供敏感标记设置功能”、“依据安全策略严格控制用户对有敏感标记重要信息资源的操作”。刑法对数据安全防护缺失的处罚指出“不采取安全技术措施导致严重数据安全事件,处1-3年有期徒刑,特别严重的判处3-7年有期徒刑”


3)数据泄露影响大

政务信息安全关系国家安全和机密、社会稳定。各领域数据资源具有资源多、广、全、散,涉密高,一旦泄露则侵犯隐私、社会影响大、公信力及声誉受损。


  


大数据时代的脱敏要求

随着大数据时代的来临,大数据、云计算、人工智能等新技术应用的不断深化,为数据的深度挖掘、分析提供强有力的支撑,大数据中蕴含的巨大价值被逐步挖掘出来。但是同时也带来隐私、敏感信息保护方面的棘手难题。如何在实现数据高效共享、分析挖掘的同时,保护敏感及隐私信息不被泄露对脱敏作业提出了更高的要求。

1. 大数据处理能力

大数据的核心特性便是数据体量巨大,数据量从TB级别跃升到PB级别。传统脱敏工具无法完成如此海量数据的抽取、脱敏、投递作业。


2. 兼容大数据存储

传统脱敏工具多用于关系型数据库结构化数据的脱敏作业,对大数据平台(如阿里云MaxCompute、星环TDH等)不兼容,缺乏对大数据平台的数据脱敏能力。


3. 广泛的分发模式

数据的交换和共享越来越频繁,库到库的脱敏数据投递模式已不足以支撑日益多元化的数据分发场景,必须进一步扩展支撑库、文件、大数据平台三者间的任意分发模式。


4. 作业规范与监控

数据越集中,数据的安全管控就越重要,对数据的操作就越需慎重。数据分析利用日趋频繁,作业过程缺乏统一规范和监控易引发数据泄露和数据丢失等安全事故,必须采用必要的手段实现数据脱敏作业统一规范、过程可控。


  


华云慧通数据脱敏平台

针对业务系统和大数据平台,对其数据资源中的敏感信息进行脱敏保护,高效投递到开发、测试、培训、共享等二级数据服务环境,满足用户方IT建设的数据多样化需要,达到数据安全管控的要求。


平台核心技术特性

1)识别、脱敏、数据投递一体化

自动化识别敏感数据范围,提高脱敏目标精准性,广泛的兼容不同数据库类型,一对多的脱敏拓扑结构,自动化高效的实施脱敏,提高运维能力。

 

2)敏感数据发现

结合关键字、语义特征,自动化地敏感数据发现,从而降低数据风险,提高安全效率。


3)支持大数据、关系库、文件源

广泛的兼容性,支持Oracle、Mysql等关系型数据库脱敏,也支持大数据平台例如阿里云ODPS库、星环TDH库的数据脱敏,支持文件源的数据脱敏,从而满足客户不同数据环境下的脱敏投递需求.


4)保持业务关联

在数据脱敏的同时,保持数据隐含业务规则的有效性,不破坏数据的业务规则。同时保持数据之间的一致性关联逻辑,确保脱敏后数据的可用性。


5)配置灵活资源沉淀

摒弃脚本配置的传统模式,实现脱敏作业图形配置、敏感识别策略可维护可扩展,脱敏算法可维护可扩展可在线测试,提高平台兼容性和扩展性。将任务配置信息、敏感识别策略、脱敏算法等元数据沉淀,支撑不同环境的脱敏配置,最大化复用。

  

6)内置税务领域常见脱敏规则

可高效地完成不同省份税务领域数据脱敏的实施工作。


核心功能介绍

1)任务配置

支持图形化配置及轻量级脚本两种模式。


2)敏感数据发现

多种敏感识别策略实现敏感数据的主动扫描,支持自定义扫描任务、扫描任务管控及扫描结果人工核准等功能。


3)运维管理

可视化运维界面,支持运行状态查看、作业启停等状态控制、日志跟踪查看、调度管理等功能。


4)敏感识别策略管理

提供给脱敏作业人员进行敏感词维护、敏感识别策略维护及启停控制等功能,实现识别策略的可扩展。


5)脱敏算法管理

支持脱敏算法的启停控制、新增维护、在线测试功能及脱敏模板维护功能。


6)监控&分析

提供图表结合的监控仪表盘,对全局脱敏作业任务进行实时监控,不同维度监控运行状态。





文章转自:华云慧通


更多交流咨询欢迎加入“MaxCompute开发者社区”钉钉群,群号: 11782920,或扫描二维码入群。

https://www.aliyun.com/product/odps
image

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
5月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
512 0
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
5月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
136 1
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1626 1
|
10月前
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
10月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
1104 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
9月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
595 2
|
10月前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
240 0
|
10月前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
225 0

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute