阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。

本文作者:王璀 / 夏俊伟


简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。


什么是 MaxCompute?


MaxCompute 是一款云原生、高效能的SaaS模式企业级数据仓库服务,被广泛用于构建现代化企业数据平台,开展BI分析、数据化运营、画像及推荐、智能预测等应用场景。

MaxCompute 构建在阿里云大规模计算、存储资源之上,以Serverless架构提供全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,并最小化用户的运维投入。

MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。


MaxCompute 企业级安全能力

· 细粒度授权、

· 数据加密 (BYOK)

· 数据脱敏(数据保护伞)

· 持续备份恢复

· 跨地域的容灾备份

· 实时审计日志


image.png


MaxCompute产品集成了众多数据安全能力,可分以下三个层面:


  1. 基础安全与可信平台,保障数据中心的物理安全与网络安全,主要包括数据中心保障设施、数据中心安全管控、数据中心的网络安全等几个维度的建设。
  2. 大数据平台的数据安全,主要从生命周期角度提供分类分级、传输加密、存储加密、备份回复、沙箱隔离、数据脱敏、细粒度权限、客户端限制等子系统,为上层安全应用或工具提供平台能力基础。
  3. 数据应用的安全,为用户提供安全中心、数据保护伞、数据地图,优化用户体验,帮助用户更好应对各类数据风险。


在大数据安全管理中,主要存在以下几点数据安全风险:


  1. 数据滥用
  2. 数据泄露
  3. 数据丢失


接下去重点介绍一下用MaxCompute的功能解决以上几点数据风险。


如何应对数据滥用


应对数据滥用,最主要的应对是对数据使用做最小化授权,严格限制数据的被访问、使用的范围。权限管理的最佳实践:

数据分级管理:基于 MaxCompute LabelSecurity 对数据做分类分级管理。
授权审批流程:基于 MaxCompute 列级别权限管控能力,做最小化授权。
定期审计:对权限的申请、审批、使用情况进行分析,做到事前有审批,事后有审计。
及时清理:及时清理过期权限,减少数据风险。


可以依托 MaxCompute 的细粒度权限体系,使用Dataworks 等可视化工具,来实现最小化授权的最佳实践,应对数据滥用的风险,目前公共云上所有用户已经启用数据访问控制权限系统。特别是银行等金融行业客户同时还启用了数据标签分类管理策略。


MaxCompute 细粒度权限体系提供精细化的权限管理能力


MaxCompute支持不同的授权机制来完成对用户或角色的授权,包括:
自主访问控制机制 (DAC, Discretionary Access Control): ACL
强制访问控制机制 (MAC, Mandatory Access Control)LabelSecurity(标签安全策略)
基于角色的访问控制机制 (RBAC, Role based Access Control): 角色管理


如何应对数据泄露


数据泄露可能发生在数据生命周期的不同阶段,如数据传输、数据存储、数据处理、数据交换等阶段。因此,我们将结合数据生命周期的不同阶段来介绍应对数据泄露的最佳实践。


1,应对数据存储过程中的数据泄露风险 - 使用数据加密(存储加密)功能


MaxCompute
具有存储加密功能,支持用户数据的落盘加密:

• MaxCompute接入秘钥管理系统KMS以保障秘钥的安全性,支持服务秘钥和用户自选秘钥(BYOK)
支持加密算法:AES256,国密算法等。
• .
数据加密后对用户使用保持透明,各种类型的任务不需额外改变。

例如某全球最大多元化娱乐公司,在数据上云就启用了MaxCompute的存储加密,以及数据敏感数据自动扫描识别的功能模块。


2.应对数据数据处理过程中的数据泄露风险 - MaxCompute 安全隔离能力


在数据处理过程中,应对数据泄露的风险则主要在于大数据平台的安全隔离能力。
MaxCompute
提供独立的隔离环境用于执行数据处理应用,可以支持完整的UDF种类,支持 JavaPython UDF, 还支持执行如SparkFlinkTensorflow 等开源三方计算引擎,提供了多元化的数据处理能力。


3.应对数据交换(共享)过程中的数据泄露风险 - MaxCompute数据隔离与权限体系


在数据交换、或者说数据共享过程中,则需要完善的数据隔离能力与权限管理体系来保障数据安全、防范数据泄露风险。MaxCompute 提供不同层级和维度上的数据隔离与权限管理机制,以支持多层次的数据保护和数据共享场景。


4. 数据生命周期中的敏感数据保护


应对数据泄露风险中的一个重要主题是敏感数据保护,前文所述在存储、处理、和交换过程中的风险应对实践,对敏感数据保护同样适用。此外,还有一些针对敏感数据保护这一特定场景的最佳实践,特别是金融行业,国内银行,保险,证券基金等公司对数据安全防泄露要求特别高,同时随着法律法规的完善,很多互联网公司都在加强对隐私数据的保护。


数据脱敏:基于安全行业的脱敏实现或应用,实现不同客户端数据输出时的敏感数据脱敏。脱敏实现也可以与数据分类分级结合使用,对不同分类分级的数据做不同的脱敏实现。例如国内最大主打互联网的保险公司,就是用到了MaxCompute的数据脱敏功能来防范他们的数据防泄露。


如何应对数据丢失


除了恶意的数据泄露、数据滥用等风险,数据开发过程中的各种误操作,偶发的设备或机房故障,甚或是罕见的灾害意外情况,都能造成数据丢失的后果。应对数据丢失风险的最佳实践,主要有备份恢复,以及容灾能力。


1. MaxCompute 备份与恢复

MaxCompute 具有持续的备份与恢复能力,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,您可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。


2. MaxCompute 异地容灾

MaxCompute 的异地容灾能力,更好的提供了在机房故障或意外灾害等极端场景下的数据安全保障。在为 MaxCompute 项目指定备份位置到备份集群后,MaxCompute 自动实现主集群与备份集群的数据复制,达到主集群与被集群数据的一致,实现异地数据容灾。当发生故障,MaxCompute 项目从主集群切换到备份集群后,使用备份集群的计算资源访问备份集群的数据,完成服务的切换和恢复。



小结

作为云数据仓库MaxCompute具备领先的安全能力,也通过了国际、欧洲、国内的多项安全合规认证,如国际主流认证ISO系列、SOC1/2/3、PCI,欧洲主流认证C5,国内主流认证安全等级保护2.0。除了以上几点可以保护自己的数据安全,同时可以利用MaxCompute原生Information Schema能力对每个用户的数据处理加工过程进行审计;也可以使用ActionTrail的实时事件风险管理平台对每个用户的数据操作进行数据监控告警或者事后审计。


数据安全不仅需要完善的工具能力,同时也需要完善组织架构来支持,做到数据标注管理,数据使用,数据审计等各个不同部门的人员通力配合,才能杜绝数据安全事件。


更多 阿里云大数据产品 >>


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
99 1
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
94 1
|
4月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
151 58
|
3月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
3月前
|
存储 SQL 分布式计算
MaxCompute 在大规模数据仓库中的应用
【8月更文第31天】随着大数据时代的到来,企业面临着海量数据的存储、处理和分析挑战。传统的数据仓库解决方案在面对PB级甚至EB级的数据规模时,往往显得力不从心。阿里云的 MaxCompute(原名 ODPS)是一个专为大规模数据处理设计的服务平台,它提供了强大的数据存储和计算能力,非常适合构建和管理大型数据仓库。本文将探讨 MaxCompute 在大规模数据仓库中的应用,并展示其相对于传统数据仓库的优势。
126 0
|
4月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
4月前
|
存储 数据采集 分布式计算
阿里巴巴数据仓库实践:从离线到实时的一体化探索
阿里巴巴的数据仓库实践从离线到实时的一体化探索,不仅为企业自身业务的快速发展提供了有力支撑,也为行业树立了标杆。通过不断优化技术架构、提升数据处理能力、加强数据治理和安全管理,阿里巴巴的实时数仓将为企业创造更大的价值,推动数字化转型的深入发展。未来,随着技术的不断进步和业务的持续拓展,阿里巴巴的实时数仓实践将展现出更加广阔的应用前景和发展空间。
|
4月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
5月前
|
存储 数据采集 缓存
数据仓库设计的最佳实践
【6月更文挑战第16天】构建高效数据仓库的关键实践包括:明确业务与数据需求、选择适应的\[数据模型\](星型、雪花或事实星座)、设计优化的物理存储结构以提升查询与存储效率、保障数据质量与一致性、优化查询性能、以及确保可扩展性和灵活性。这些实践帮助企业应对数据增长,支持精准分析。

相关产品

  • 云原生大数据计算服务 MaxCompute