持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

开发者学堂课程【SaaS 模式云数据仓库实战持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/761/detail/13350


持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护


3.数据泄露

数据的生命周期由数据采集开始,进入大数据平台,进行数据传输,数据处理,数据交换和数据存储,最后直到数据被销毁,或者退出的大数据平台,这是完整的数据生命周期。数据泄露可能发生在数据生命周期中的任何一个阶段。数据流转:

图片9.png

首先从各个渠道例如应用端、采集端,采集端首先采集到各类数据,各类数据通过不同的传输渠道传输进入大数据平台,在大数据平台之内,这些数据会被进行各种计算处理,会做各种各样的交换和共享,最后会被存储在大数据平台之上,被处理之后的数据会通过不同的出口,不同的形式,被交换共享到下游的数据应用,也可能直接被一些终端用户直接访问。应对数据泄露,可能发生在采集时、传输时、存储时。在数据存储周期内,如何来保障数据安全,应对数据泄露:近期,发布的新功能是数据加密功能,为了保障用户的数据存储安全,在数据落盘的时候,提供了数据加密功能,根据不同用户的选择,使用特定的密钥,选择特定的算法对数据进行加密,在数据被用户读取时或计算时又会进行自动解密,所以加密解密过程对用户是来说是透明的,只是数据在落盘存储的时候,是被加密过的,如果被恶意用户直接访问到硬盘上的数据或者硬盘被用户直接拖走的情况下,如果没有密钥措施,用户无法读取到硬盘上的数据,因为Max compute的密钥管理是基于阿里云的密钥管理服务,所以用户在使用时,也需要开通kms服务。在近期的数据加密上重点发布了两个功能,基于用户自定义密钥除了KM4提供的服务密钥,用户还可以选择用户自定义密钥。此外,还支持国密算法,因为原先在数据加密层中,主要支持的算法有aes等,但是因为国家也在推动加密算法的合规标准,国密算法也作为新的合规标准之一,近期也会被支持。在用户使用加密存储时,新建项目用户可以选择对数据加密或不加密。选择密钥服务还是自定义密钥,并且选择相应的算法使用数据的加密功能。对于存量的项目,用户可以联系Ma想 computer服务人员开通相应功能。 Max compute提供的是servers服务,它有一个强大的安全砂箱隔离机制,支持完整的用户自定义函数的种类,支持不受限的java和package的砂箱,并且也支持native的banner为扩展。除此之外,AMAX CPU还支持用户自定义的引擎,例如spark flink,test flow等开源计算引擎,通过强大的用户自定义引擎,保障计算过程中的安全。

图片10.png

在共享过程中,首先在项目之间,例如同一个租户的不同项目之间,可以通过protight的模式和package来实现数据的隔离和一定程度上的共享,来保障不同业务之间的数据安全,防止数据泄露,对于不同的租户之间,有租户隔离来保障数据安全,防止数据泄露。数据从大数据平台分发到下游的数据应用或用户时。可以通过download权限来管理大批量数据分发,同时可以通过端识别机制对应用进行签名,可以对不同的应用赋予不同的权限,让他们去获取不同的数据,进行不同的管理类别操作。在应用上可以保证访问到应该访问的应用,执行权限范围内的一些操作。

图片11.png

通过敏感数据保护或隐私数据保护应对数据泄露,数据保护贯穿整个数据生命周期。在进行数据采集的时候,数据进入到大数据平台时可以使用max compute的列级别的权限控制,对数据进行字段级别的分类分级,可以表示数据的不同的安全分类,不同的安全等级,来进行权限访问控制,敏感数据可以给高级别的安全权限,限制只有高级别的用户能够访问。在做数据共享的时候,可以做数据脱敏,对于比较敏感的信息,例如身份证信息、银行卡信息、电话号码信息,这些数据信息在做数据呈现时,难免会呈现给不同的用户或数据。由于涉及到个人隐私,不能直接做全量的呈现,可以使用数据脱敏。功能脱敏功能是基于Max compute的平台能力,在平台能力之上,数据保护伞提供了工序层面的脱敏应用。脱敏功能首先通过data works进入数据保护伞,然后对数据脱敏进行配置,例如对哪些敏感数据用什么逻辑算法进行脱敏,如果是data works层面的脱敏,用户在data works中执行一条select语句之后,如果出来的是敏感数据,敏感数据就会被模糊化。如果用户选择在Max compute层面做数据脱敏,脱敏的效果除了在data works中能够看到屏幕显示脱敏,通过其他任何渠道查询出来的屏幕显示也都会被脱敏。

图片12.png

4.数据丢失

用户误操作会造成数据丢失。近期,Max compute发布了备份与恢复能力。在数据开发过程中,用户难免会有误操作,例如不小心删除了数据或者覆盖了数据。对于以上情况。用户如果想要恢复之前的版本,就可以使用新的备份与恢复功能,无需用户手工操作,备份会自动记录备份每一次的数据变化历史可在需要时对数据恢复到特定历史版本。用户可以找到对应的历史,并恢复到特定的历史版本,

图片13.png

例如用户不小心删除了某个分区数据:

图片14.png

用户发现误操作之后需要恢复就可以回去找到对应的历史版本以及对应历史版本的分区号,最后执行恢复操作,把数据恢复回来一些灾害情况或意外情况的发生,也会导致数据丢失。这样的情况可以使用跨地域的异地容灾,异地容灾可以做到把数据备份在不同的地域中的两个集群。如果用户为某一个Max compute项目指定了备份。 Max computer会把主集群的数据自动同步到备集群,当意外情况发生,需要做备份切换的时候,会自动切换到备集群,使用备集群的计算资源去访问备集群的已经备份的数据,切换过程可以对用户做到相对透明。

还有一类应对措施贯穿四大风险,就是风险的预警和审计,也就是常说的审计和分控,审计和风控主要回答的是所有的数据所有的操作是否合规,是否有危险。除了前面的主动防御措施和事前措施,事后还可以有补救措施。风险预警和审计也可以分为二个层面。首先是Max compute大数据平台提供平台的能力。近期发布的功能主要是实时审计日志功能。实施审计日志会提供完整的用户操作日志,基于平台能力,data works上数据保护伞或数据中心可以通过白屏化平台,让用户进行更方便的使用,更直观地做风控审计。日志完整地记录用户在Max compute项目内的操作行为,把这些用户操作行为接入到阿里云的服务中,在服务中用户可以查看检索任何操作,并可以把所需要的数据投递到阿里云日志或者oss上,进一步的基于日志和oss做分析、预警,所以基于实时审计日志功能,用户可以满足实时审计以及事后分析两方面的功能,应用的场景基于日志上的行为分析,可以帮助用户回答权限有没有被合理使用,因为其中包括了健全的日志;敏感数据有没有被不合理的访问或数据下载的使用频率是否有异常,用户使用数据范围是否异常,这一类问题都能做出详细回答,实时审计日志只是操作行为的记录,还需要用户投递到相应的日志或oss上进一步的分析,需要用户做一定的数据开发,如果用户需要直接的风控和审计产品进行使用,可以参考data works,数据保护伞能够为用户提供风控审计和用户管理。

 

三、总结

从大数据平台体系来看,把大数据平台的功能和安全能力一一对应到数据的生命周期安全中,近期的新功能主要集中在存储处理和交换这三个数据生命周期阶段以及贯穿所有生命周期阶段的审计日志的功能发布。

Max compute已经通过的一系列国际欧洲以及国内的合规安全认证:

图片15.png

在总体竞争能力上,Max compute是在大数据平台产品中属于安全能力较领先的产品。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
23天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
72 11
|
28天前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
71 1
|
1月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
1月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
28天前
|
分布式计算 安全 大数据
MaxCompute 的安全性和数据隐私保护
【8月更文第31天】在当今数字化转型的时代背景下,企业越来越依赖于大数据分析来推动业务增长。与此同时,数据安全和隐私保护成为了不容忽视的关键问题。作为阿里巴巴集团推出的大数据处理平台,MaxCompute(原名 ODPS)致力于为企业提供高效、安全的数据处理解决方案。本文将探讨 MaxCompute 在数据安全方面的实践,包括数据加密、访问控制及合规性考虑等方面。
60 0
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
39 1
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
1月前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
|
1月前
|
存储 分布式计算 大数据
大数据处理竟然这么简单?学会这几招,你也能在数据洪流中游刃有余,秒变数据大师!
【8月更文挑战第6天】面对海量数据,有效处理成为关键。本文介绍大规模数据处理的核心挑战及解决方案,涵盖分布式存储(如HDFS)和计算(如Spark)。通过示例代码展示HDFS文件读写及Spark数据处理流程。此外,还强调了数据质量、安全及合理资源配置的重要性,助您在数据海洋中洞察先机。
58 1

热门文章

最新文章