阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。

本文作者:王璀 / 夏俊伟


简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。


什么是 MaxCompute?


MaxCompute 是一款云原生、高效能的SaaS模式企业级数据仓库服务,被广泛用于构建现代化企业数据平台,开展BI分析、数据化运营、画像及推荐、智能预测等应用场景。

MaxCompute 构建在阿里云大规模计算、存储资源之上,以Serverless架构提供全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,并最小化用户的运维投入。

MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。


MaxCompute 企业级安全能力

· 细粒度授权、

· 数据加密 (BYOK)

· 数据脱敏(数据保护伞)

· 持续备份恢复

· 跨地域的容灾备份

· 实时审计日志


image.png


MaxCompute产品集成了众多数据安全能力,可分以下三个层面:


  1. 基础安全与可信平台,保障数据中心的物理安全与网络安全,主要包括数据中心保障设施、数据中心安全管控、数据中心的网络安全等几个维度的建设。
  2. 大数据平台的数据安全,主要从生命周期角度提供分类分级、传输加密、存储加密、备份回复、沙箱隔离、数据脱敏、细粒度权限、客户端限制等子系统,为上层安全应用或工具提供平台能力基础。
  3. 数据应用的安全,为用户提供安全中心、数据保护伞、数据地图,优化用户体验,帮助用户更好应对各类数据风险。


在大数据安全管理中,主要存在以下几点数据安全风险:


  1. 数据滥用
  2. 数据泄露
  3. 数据丢失


接下去重点介绍一下用MaxCompute的功能解决以上几点数据风险。


如何应对数据滥用


应对数据滥用,最主要的应对是对数据使用做最小化授权,严格限制数据的被访问、使用的范围。权限管理的最佳实践:

数据分级管理:基于 MaxCompute LabelSecurity 对数据做分类分级管理。
授权审批流程:基于 MaxCompute 列级别权限管控能力,做最小化授权。
定期审计:对权限的申请、审批、使用情况进行分析,做到事前有审批,事后有审计。
及时清理:及时清理过期权限,减少数据风险。


可以依托 MaxCompute 的细粒度权限体系,使用Dataworks 等可视化工具,来实现最小化授权的最佳实践,应对数据滥用的风险,目前公共云上所有用户已经启用数据访问控制权限系统。特别是银行等金融行业客户同时还启用了数据标签分类管理策略。


MaxCompute 细粒度权限体系提供精细化的权限管理能力


MaxCompute支持不同的授权机制来完成对用户或角色的授权,包括:
自主访问控制机制 (DAC, Discretionary Access Control): ACL
强制访问控制机制 (MAC, Mandatory Access Control)LabelSecurity(标签安全策略)
基于角色的访问控制机制 (RBAC, Role based Access Control): 角色管理


如何应对数据泄露


数据泄露可能发生在数据生命周期的不同阶段,如数据传输、数据存储、数据处理、数据交换等阶段。因此,我们将结合数据生命周期的不同阶段来介绍应对数据泄露的最佳实践。


1,应对数据存储过程中的数据泄露风险 - 使用数据加密(存储加密)功能


MaxCompute
具有存储加密功能,支持用户数据的落盘加密:

• MaxCompute接入秘钥管理系统KMS以保障秘钥的安全性,支持服务秘钥和用户自选秘钥(BYOK)
支持加密算法:AES256,国密算法等。
• .
数据加密后对用户使用保持透明,各种类型的任务不需额外改变。

例如某全球最大多元化娱乐公司,在数据上云就启用了MaxCompute的存储加密,以及数据敏感数据自动扫描识别的功能模块。


2.应对数据数据处理过程中的数据泄露风险 - MaxCompute 安全隔离能力


在数据处理过程中,应对数据泄露的风险则主要在于大数据平台的安全隔离能力。
MaxCompute
提供独立的隔离环境用于执行数据处理应用,可以支持完整的UDF种类,支持 JavaPython UDF, 还支持执行如SparkFlinkTensorflow 等开源三方计算引擎,提供了多元化的数据处理能力。


3.应对数据交换(共享)过程中的数据泄露风险 - MaxCompute数据隔离与权限体系


在数据交换、或者说数据共享过程中,则需要完善的数据隔离能力与权限管理体系来保障数据安全、防范数据泄露风险。MaxCompute 提供不同层级和维度上的数据隔离与权限管理机制,以支持多层次的数据保护和数据共享场景。


4. 数据生命周期中的敏感数据保护


应对数据泄露风险中的一个重要主题是敏感数据保护,前文所述在存储、处理、和交换过程中的风险应对实践,对敏感数据保护同样适用。此外,还有一些针对敏感数据保护这一特定场景的最佳实践,特别是金融行业,国内银行,保险,证券基金等公司对数据安全防泄露要求特别高,同时随着法律法规的完善,很多互联网公司都在加强对隐私数据的保护。


数据脱敏:基于安全行业的脱敏实现或应用,实现不同客户端数据输出时的敏感数据脱敏。脱敏实现也可以与数据分类分级结合使用,对不同分类分级的数据做不同的脱敏实现。例如国内最大主打互联网的保险公司,就是用到了MaxCompute的数据脱敏功能来防范他们的数据防泄露。


如何应对数据丢失


除了恶意的数据泄露、数据滥用等风险,数据开发过程中的各种误操作,偶发的设备或机房故障,甚或是罕见的灾害意外情况,都能造成数据丢失的后果。应对数据丢失风险的最佳实践,主要有备份恢复,以及容灾能力。


1. MaxCompute 备份与恢复

MaxCompute 具有持续的备份与恢复能力,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。


2. MaxCompute 异地容灾

MaxCompute 的异地容灾能力,更好的提供了在机房故障或意外灾害等极端场景下的数据安全保障。在为 MaxCompute 项目指定备份位置到备份集群后,MaxCompute 自动实现主集群与备份集群的数据复制,达到主集群与被集群数据的一致,实现异地数据容灾。当发生故障,MaxCompute 项目从主集群切换到备份集群后,使用备份集群的计算资源访问备份集群的数据,完成服务的切换和恢复。



小结

作为云数据仓库MaxCompute具备领先的安全能力,也通过了国际、欧洲、国内的多项安全合规认证,如国际主流认证ISO系列、SOC1/2/3、PCI,欧洲主流认证C5,国内主流认证安全等级保护2.0。除了以上几点可以保护自己的数据安全,同时可以利用MaxCompute原生Information Schema能力对每个用户的数据处理加工过程进行审计;也可以使用ActionTrail的实时事件风险管理平台对每个用户的数据操作进行数据监控告警或者事后审计。


数据安全不仅需要完善的工具能力,同时也需要完善组织架构来支持,做到数据标注管理,数据使用,数据审计等各个不同部门的人员通力配合,才能杜绝数据安全事件。


更多 阿里云大数据产品 >>


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
99 1
|
22天前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
49 0
|
1月前
|
安全 大数据 数据挖掘
大数据时代,数据安全管理的问题与对策
无论是从企业还是个人的需求出发,考取一个大数据管理相关的证书都是最好的选择,不仅能提升大数据管理能力、意识和素质,还能获得更高的市场信誉与认可。
|
4月前
|
存储 分布式计算 监控
日志数据投递到MaxCompute最佳实践
日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
200 2
|
3月前
|
存储 设计模式 分布式计算
面向对象编程在大数据处理中的最佳实践
【8月更文第12天】随着互联网和物联网技术的发展,数据量呈指数级增长,大数据处理已成为现代企业不可或缺的一部分。大数据处理通常涉及收集、存储、管理和分析海量数据集。传统的数据库管理系统难以应对这样的挑战,因此出现了诸如Hadoop、Spark等分布式处理框架。这些框架通常使用面向对象编程(OOP)来构建可扩展、可维护的应用程序。本文将探讨如何利用面向对象编程的原则和模式来优化大数据处理任务。
95 0
|
6月前
|
存储 运维 监控
大数据分析平台之 OLAP 架构的最佳实践
本文将分享聚水潭云原生 OLAP 架构的最佳实践。
|
6月前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
722 1
|
6月前
|
弹性计算 人工智能 安全
大数据时代,如何基于机密虚拟化技术构建数据安全的“基石”
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,阿里云弹性计算产品专家唐湘华、阿里云高级安全专家刘煜堃、蚂蚁集团高级技术专家肖俊贤三位嘉宾在【云服务器 & 计算服务】专场中共同带来题为《大数据时代,如何基于机密虚拟化技术构建数据安全的“基石”》的主题演讲,从ECS产品安全体系及机密计算介绍、基于机密虚拟机的数据保护解决方案、蚂蚁机密PaaS最佳实践三大角度为大家做了全面的分享。
|
存储 安全 大数据
数据隐私与安全在大数据时代的挑战与应对
数据隐私与安全在大数据时代的挑战与应对
1020 0
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(下篇) 2
大数据生态安全框架的实现原理与最佳实践(下篇)

相关产品

  • 云原生大数据计算服务 MaxCompute