基于MaxCompute的大数据安全方案

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 随着法律的完善,数据安全,信息安全,网络安全,升级成国家安全,所以数据安全不管对用户,还是对公司也都会变的越来越重要。做为大数据云数仓解决方案的领导者,阿里云MaxCompute在安全体系上也做了很多特性,本文给大家简单介绍下MaxCompute关于数据安全的一些能力。

随着法律的完善,数据安全,信息安全,网络安全,升级成国家安全,所以数据安全不管对用户,还是对公司也都会变的越来越重要。做为大数据云数仓解决方案的领导者,阿里云MaxCompute在安全体系上也做了很多特性,本文给大家简单介绍下MaxCompute关于数据安全的一些能力。

安全体系介绍

安全体系不是一个系统,是一系列的系统联合才能做到大数据平台的数据安全要求,主要包括:

  1. 事前准备,包括数据打标,白/黑名单,权限分配,加密算法和脱敏算法准备。

  2. 事中处理,包括数据加密/解密,白名单过滤,数据扫描,数据实时告警。

  3. 事后审计,包括数据使用日志审计,数据离线报表监控等。

  4. 安全体系架构

数据安全体系不仅需要各个系统配合使用,同时也需要不同部门进行流程化管理,让数据能在合理授权下使用:

  • 其中就会涉及到数据合规部门,对数据进行打标,对数据规则进行配置,权限设置以及白名单管理等工作;

  • 大数据平台要按照合规人员设置的规则自动化对数据进行加密或者脱敏,然后提供给数据使用者使用;

  • 数据安全人员同时要对每个敏感数据的使用都需要有实时的数据监控,以及数据事后的定时审计。

image.png

本文主要介绍阿里大数据平台的数据存储加密和数据脱敏两块,目前阿里大数据平台MaxCompute联合KMS平台在对数据上云时可以对数据进行加密存储,支持AES256、AESCTR和RC4算法,在客户使用时自动解密,做到客户无感知的数据保护。

同时MaxCompute联合DataWorks和数据安全保护伞做到敏感数据脱敏使用,用户可以在数据保护伞里对数据进行打标配置,风险规则定义,脱敏规则配置以及白名单设计等操作,MaxCompute会自动对已经打标的数据,按照脱敏规则对指定的敏感数据进行脱敏显示。

适用场景

场景一:客户个人信息保护

个人信息保护场景,随着相关法律的出台,很多游戏公司都要需要录入个人身份证号等敏感信息,如果客户的个人信息泄露是很严重的数据安全事故,所以类似身份证号等个人信息的保护就变的非常重要,这些信息只有客户自己可以使用,或者客户授权的情况下才可以使用,但是在企业运营时,需要对这些信息进行加工,匹配等,所以在所有加工过程中都需要加密或者脱敏操作。

场景二:企业内部信息保护

大部分公司内部有财务,个人薪资等很多敏感数据,但是公司正常运营,需要这些数据在大数据平台进行加工计算,最后输出报表,在中间加工过程中,包括数据研发人员,测试人员,产品经理等,都不能触碰明文数据,需要对数据进行脱敏操作。

适合客群

本文适合企业已经使用了MaxCompute产品的数据管理人员,数据治理人员,数据研发人员以及数据安全合规人员等。

数据加密

MaxCompute支持通过密钥管理服务KMS(Key Management Service)对数据进行加密存储,提供数据静态保护能力,满足企业监管和安全合规需求。

前提条件

  • 阿里云服务账号;

  • 已经开启KMS密钥管理服务。

操作步骤

  1. 进入密钥管理服务开通页,选中密钥管理服务服务协议,单击立即开通,开通KMS服务。

  2. 登录DataWorks控制台,在左侧导航栏,单击工作空间列表。

  3. 在工作空间列表页面上方选择区域后,单击创建工作空间。在创建工作空间面板,配置基本配置信息,单击下一步,详情请参见创建项目空间。

  4. 在创建工作空间面板的选择计算引擎服务区域,选中MaxCompute。

  5. 在请进行ODPS服务账号授权对话框,单击授权。

  6. 在新打开的云资源访问授权页面,单击同意授权。

  7. 返回请进行ODPS服务账号授权对话框。关闭请进行ODPS服务账号授权对话框,在创建工作空间面板的选择计算引擎服务区域,重新选中MaxCompute,单击下一步。

  8. 在创建工作空间面板,配置引擎详情信息。选中加密,开启数据加密功能。以创建简单模式的工作空间为例。

  9. 单击创建工作空间,完成创建。开启数据加密功能后,MaxCompute会自动完成项目数据读写过程中的加密或解密操作。

数据脱敏

数据保护伞是一款数据安全管理产品,为您提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据审计、数据溯源等功能。接下去为您介绍如何开通、使用数据保护伞。

前提条件

  • 阿里云服务账号;

  • 已经开启DataWorks空间。

操作步骤

  1. 登录DataWorks控制台,进入设置,启用页面查询内容脱敏:

image.png
  1. 单击左上方的图标,选择全部产品 > 数据治理 > 数据保护伞。

image.png
  1. 数据分级分类设置,系统会字段1000+数据分类,在没有特殊要求的情况下,大部分情况下可以用默认分类,同时也支持自定义客户自己的分级分类。

  2. 数据识别类型,系统已经自带很多1000+识别类型,没有特殊要求,可以使用自带识别自动生成数据识别模型,同时也支持通过您提供的样本字段,进行模型训练,帮助您寻找目标字段的内容特征,生成相应的规则模型。

  3. 数据脱敏规则定义,用户可以给指定的数据字段类型进行定义脱敏规则,目前支持脱敏方式有假名,Hash,掩盖三种。

image.png
  1. 数据查询会进行自动掩盖:

image.png

白名单

目前数据保护伞对于数据脱敏部分,支持给用户添加白名单,如果在白名单里的客户,可以无视脱敏规则,可以查到明文数据。

image.png

数据发现

目前数据保护伞对于数据脱敏部分,支持系统自动扫描数据,并把风险统计数据显示出来。

image.png

数据风险识别

目前数据保护伞对于数据脱敏部分,支持用户自定义风险行为,并对风险进行统一查询显示。

image.png

数据审计

目前数据保护伞对于数据脱敏部分,用户可以查询数据风险处理情况,对数据安全处理进行审计。

image.png

总结

本文只是对大数据平台的安全性做了简单的梳理,很多细节因为篇幅没有细讲,有兴趣的同学可以参考官方文档。

目前阿里大数据平台已经对数据的存储加密,以及数据脱敏显示上做了比较多的能力,但是在数据还不能做到列级,行级甚至单元格级别的加密;在数据识别扫描上也不支持手动根据自己的规则进行扫描;在数据全渠道接入脱敏也没有覆盖所有Region;在数据安全使用上,数据监控以及数据审计上做的也不是很完善等等问题,后续在安全上加入更多能力,让用户可以安心,放心,省心的在阿里云大数据平台上使用数据。

常见问题

  • MaxCompute数据存储加密后,是否可以被hologres外表访问?

答:是可以的,但是在存储加密时需要选用自带密钥的加密方式。

  • MaxCompute数据存储加密后,需要用户手工解密吗?

答:不需要,系统会在查出来时自动解密。

  • 在数据保护伞中已经配置了数据分类,脱敏规则,为什么脱敏还不生效?

答:先要在DataWorks的设置中开启页面查询内容脱敏。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
18天前
|
分布式计算 容灾 大数据
MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云
一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。
539 3
|
12月前
|
SQL 数据采集 存储
数据建设与治理丨Dataphin中如何进行Hologres开发
前言:在Dataphin 3.9中新增支持Hologres引擎的适配。Hologres是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving)。通过Dataphin的研发平台能力以及数据资产治理能力,可提供更好的即席分析及实时数仓的构建能力。
326 0
数据建设与治理丨Dataphin中如何进行Hologres开发
|
11天前
|
SQL 分布式计算 大数据
MaxCompute生态与开放性
MaxCompute是阿里自研的大数据云数仓,同时也兼容大部分大数据生态系统。一个平台不能完成所有功能,解决所有问题,MaxCompute需要依赖大数据生态,才能走的更远。
29 0
MaxCompute生态与开放性
|
分布式计算 运维 搜索推荐
基于阿里云Maxcompute搭建商业广告数据分析系统
互联网时代,信息流广告越来越多。而信息流广告的投放以大数据测算为依托,同样的数据,不同的解读方式,在进行投放指导时会产生不同的效果。
246 0
基于阿里云Maxcompute搭建商业广告数据分析系统
|
存储 分布式计算 安全
阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践
MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。
17746 3
阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践
|
存储 分布式计算 DataWorks
【转载】基于MaxCompute的大数据安全方案
随着法律的完善,数据安全,信息安全,网络安全,升级成国家安全,所以数据安全不管对用户,还是对公司也都会变的越来越重要。做为大数据云数仓解决方案的领导者,阿里云MaxCompute在安全体系上也做了很多特性,本文给大家简单介绍下MaxCompute关于数据安全的一些能力。
14857 1
【转载】基于MaxCompute的大数据安全方案
|
SQL 存储 分布式计算
MaxCompute湖仓一体方案最佳实践
希望通过本次演讲,让大家更深入了解MaxCompute湖仓一体方案最佳实践,加深对MaxCompute湖仓一体方案的理解与认识,最终可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。
901 0
MaxCompute湖仓一体方案最佳实践
|
消息中间件 分布式计算 DataWorks
DataWorks数据集成-大数据上下云的核心枢纽 | 《一站式大数据开发治理DataWorks使用宝典》
数据集成是大数据平台上下云的核心枢纽,它的主要功能是把不同业务系统中的数据进行打通,实现数据自由离线或实时地流动,可以通过丰富的网络解决方案完成数据上下云。
2544 1
DataWorks数据集成-大数据上下云的核心枢纽 | 《一站式大数据开发治理DataWorks使用宝典》
|
存储 分布式计算 DataWorks
玩物得志:效率为王 基于DataWorks+MaxCompute+Hologres 构建大数据平台
为了支撑业务的快速发展,玩物得志极少自己造轮子,会大量采用云平台提供的 SaaS、PaaS 服务。比如大数据体系是在阿里云 MaxCompute+DataWorks 框架体系上建设起来。使用了其核心存储、计算等组件,上层的可视化以及业务查询部分,在使用过程中也会有大量的定制化需求,玩物得志在开源方案的基础上进行了一些二次开发。
14696 0
玩物得志:效率为王 基于DataWorks+MaxCompute+Hologres 构建大数据平台
|
SQL 弹性计算 DataWorks
基于Dataworks的大数据一站式开发及数据治理
基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。
基于Dataworks的大数据一站式开发及数据治理