持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
密钥管理服务KMS,1000个密钥,100个凭据,1个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

开发者学堂课程【SaaS 模式云数据仓库实战持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/761/detail/13350


持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护


3.数据泄露

数据的生命周期由数据采集开始,进入大数据平台,进行数据传输,数据处理,数据交换和数据存储,最后直到数据被销毁,或者退出的大数据平台,这是完整的数据生命周期。数据泄露可能发生在数据生命周期中的任何一个阶段。数据流转:

图片9.png

首先从各个渠道例如应用端、采集端,采集端首先采集到各类数据,各类数据通过不同的传输渠道传输进入大数据平台,在大数据平台之内,这些数据会被进行各种计算处理,会做各种各样的交换和共享,最后会被存储在大数据平台之上,被处理之后的数据会通过不同的出口,不同的形式,被交换共享到下游的数据应用,也可能直接被一些终端用户直接访问。应对数据泄露,可能发生在采集时、传输时、存储时。在数据存储周期内,如何来保障数据安全,应对数据泄露:近期,发布的新功能是数据加密功能,为了保障用户的数据存储安全,在数据落盘的时候,提供了数据加密功能,根据不同用户的选择,使用特定的密钥,选择特定的算法对数据进行加密,在数据被用户读取时或计算时又会进行自动解密,所以加密解密过程对用户是来说是透明的,只是数据在落盘存储的时候,是被加密过的,如果被恶意用户直接访问到硬盘上的数据或者硬盘被用户直接拖走的情况下,如果没有密钥措施,用户无法读取到硬盘上的数据,因为Max compute的密钥管理是基于阿里云的密钥管理服务,所以用户在使用时,也需要开通kms服务。在近期的数据加密上重点发布了两个功能,基于用户自定义密钥除了KM4提供的服务密钥,用户还可以选择用户自定义密钥。此外,还支持国密算法,因为原先在数据加密层中,主要支持的算法有aes等,但是因为国家也在推动加密算法的合规标准,国密算法也作为新的合规标准之一,近期也会被支持。在用户使用加密存储时,新建项目用户可以选择对数据加密或不加密。选择密钥服务还是自定义密钥,并且选择相应的算法使用数据的加密功能。对于存量的项目,用户可以联系Ma想 computer服务人员开通相应功能。 Max compute提供的是servers服务,它有一个强大的安全砂箱隔离机制,支持完整的用户自定义函数的种类,支持不受限的java和package的砂箱,并且也支持native的banner为扩展。除此之外,AMAX CPU还支持用户自定义的引擎,例如spark flink,test flow等开源计算引擎,通过强大的用户自定义引擎,保障计算过程中的安全。

图片10.png

在共享过程中,首先在项目之间,例如同一个租户的不同项目之间,可以通过protight的模式和package来实现数据的隔离和一定程度上的共享,来保障不同业务之间的数据安全,防止数据泄露,对于不同的租户之间,有租户隔离来保障数据安全,防止数据泄露。数据从大数据平台分发到下游的数据应用或用户时。可以通过download权限来管理大批量数据分发,同时可以通过端识别机制对应用进行签名,可以对不同的应用赋予不同的权限,让他们去获取不同的数据,进行不同的管理类别操作。在应用上可以保证访问到应该访问的应用,执行权限范围内的一些操作。

图片11.png

通过敏感数据保护或隐私数据保护应对数据泄露,数据保护贯穿整个数据生命周期。在进行数据采集的时候,数据进入到大数据平台时可以使用max compute的列级别的权限控制,对数据进行字段级别的分类分级,可以表示数据的不同的安全分类,不同的安全等级,来进行权限访问控制,敏感数据可以给高级别的安全权限,限制只有高级别的用户能够访问。在做数据共享的时候,可以做数据脱敏,对于比较敏感的信息,例如身份证信息、银行卡信息、电话号码信息,这些数据信息在做数据呈现时,难免会呈现给不同的用户或数据。由于涉及到个人隐私,不能直接做全量的呈现,可以使用数据脱敏。功能脱敏功能是基于Max compute的平台能力,在平台能力之上,数据保护伞提供了工序层面的脱敏应用。脱敏功能首先通过data works进入数据保护伞,然后对数据脱敏进行配置,例如对哪些敏感数据用什么逻辑算法进行脱敏,如果是data works层面的脱敏,用户在data works中执行一条select语句之后,如果出来的是敏感数据,敏感数据就会被模糊化。如果用户选择在Max compute层面做数据脱敏,脱敏的效果除了在data works中能够看到屏幕显示脱敏,通过其他任何渠道查询出来的屏幕显示也都会被脱敏。

图片12.png

4.数据丢失

用户误操作会造成数据丢失。近期,Max compute发布了备份与恢复能力。在数据开发过程中,用户难免会有误操作,例如不小心删除了数据或者覆盖了数据。对于以上情况。用户如果想要恢复之前的版本,就可以使用新的备份与恢复功能,无需用户手工操作,备份会自动记录备份每一次的数据变化历史可在需要时对数据恢复到特定历史版本。用户可以找到对应的历史,并恢复到特定的历史版本,

图片13.png

例如用户不小心删除了某个分区数据:

图片14.png

用户发现误操作之后需要恢复就可以回去找到对应的历史版本以及对应历史版本的分区号,最后执行恢复操作,把数据恢复回来一些灾害情况或意外情况的发生,也会导致数据丢失。这样的情况可以使用跨地域的异地容灾,异地容灾可以做到把数据备份在不同的地域中的两个集群。如果用户为某一个Max compute项目指定了备份。 Max computer会把主集群的数据自动同步到备集群,当意外情况发生,需要做备份切换的时候,会自动切换到备集群,使用备集群的计算资源去访问备集群的已经备份的数据,切换过程可以对用户做到相对透明。

还有一类应对措施贯穿四大风险,就是风险的预警和审计,也就是常说的审计和分控,审计和风控主要回答的是所有的数据所有的操作是否合规,是否有危险。除了前面的主动防御措施和事前措施,事后还可以有补救措施。风险预警和审计也可以分为二个层面。首先是Max compute大数据平台提供平台的能力。近期发布的功能主要是实时审计日志功能。实施审计日志会提供完整的用户操作日志,基于平台能力,data works上数据保护伞或数据中心可以通过白屏化平台,让用户进行更方便的使用,更直观地做风控审计。日志完整地记录用户在Max compute项目内的操作行为,把这些用户操作行为接入到阿里云的服务中,在服务中用户可以查看检索任何操作,并可以把所需要的数据投递到阿里云日志或者oss上,进一步的基于日志和oss做分析、预警,所以基于实时审计日志功能,用户可以满足实时审计以及事后分析两方面的功能,应用的场景基于日志上的行为分析,可以帮助用户回答权限有没有被合理使用,因为其中包括了健全的日志;敏感数据有没有被不合理的访问或数据下载的使用频率是否有异常,用户使用数据范围是否异常,这一类问题都能做出详细回答,实时审计日志只是操作行为的记录,还需要用户投递到相应的日志或oss上进一步的分析,需要用户做一定的数据开发,如果用户需要直接的风控和审计产品进行使用,可以参考data works,数据保护伞能够为用户提供风控审计和用户管理。

 

三、总结

从大数据平台体系来看,把大数据平台的功能和安全能力一一对应到数据的生命周期安全中,近期的新功能主要集中在存储处理和交换这三个数据生命周期阶段以及贯穿所有生命周期阶段的审计日志的功能发布。

Max compute已经通过的一系列国际欧洲以及国内的合规安全认证:

图片15.png

在总体竞争能力上,Max compute是在大数据平台产品中属于安全能力较领先的产品。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
106 1
|
4月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
88 3
|
5月前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
3月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
126 4
|
7月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
140 2
|
2月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
4月前
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
165 0
|
4月前
|
存储 SQL 分布式计算
MaxCompute 在大规模数据仓库中的应用
【8月更文第31天】随着大数据时代的到来,企业面临着海量数据的存储、处理和分析挑战。传统的数据仓库解决方案在面对PB级甚至EB级的数据规模时,往往显得力不从心。阿里云的 MaxCompute(原名 ODPS)是一个专为大规模数据处理设计的服务平台,它提供了强大的数据存储和计算能力,非常适合构建和管理大型数据仓库。本文将探讨 MaxCompute 在大规模数据仓库中的应用,并展示其相对于传统数据仓库的优势。
144 0
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
下一篇
DataWorks