持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)

简介: 快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

开发者学堂课程【SaaS 模式云数据仓库实战持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/761/detail/13350


持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护


3.数据泄露

数据的生命周期由数据采集开始,进入大数据平台,进行数据传输,数据处理,数据交换和数据存储,最后直到数据被销毁,或者退出的大数据平台,这是完整的数据生命周期。数据泄露可能发生在数据生命周期中的任何一个阶段。数据流转:

图片9.png

首先从各个渠道例如应用端、采集端,采集端首先采集到各类数据,各类数据通过不同的传输渠道传输进入大数据平台,在大数据平台之内,这些数据会被进行各种计算处理,会做各种各样的交换和共享,最后会被存储在大数据平台之上,被处理之后的数据会通过不同的出口,不同的形式,被交换共享到下游的数据应用,也可能直接被一些终端用户直接访问。应对数据泄露,可能发生在采集时、传输时、存储时。在数据存储周期内,如何来保障数据安全,应对数据泄露:近期,发布的新功能是数据加密功能,为了保障用户的数据存储安全,在数据落盘的时候,提供了数据加密功能,根据不同用户的选择,使用特定的密钥,选择特定的算法对数据进行加密,在数据被用户读取时或计算时又会进行自动解密,所以加密解密过程对用户是来说是透明的,只是数据在落盘存储的时候,是被加密过的,如果被恶意用户直接访问到硬盘上的数据或者硬盘被用户直接拖走的情况下,如果没有密钥措施,用户无法读取到硬盘上的数据,因为Max compute的密钥管理是基于阿里云的密钥管理服务,所以用户在使用时,也需要开通kms服务。在近期的数据加密上重点发布了两个功能,基于用户自定义密钥除了KM4提供的服务密钥,用户还可以选择用户自定义密钥。此外,还支持国密算法,因为原先在数据加密层中,主要支持的算法有aes等,但是因为国家也在推动加密算法的合规标准,国密算法也作为新的合规标准之一,近期也会被支持。在用户使用加密存储时,新建项目用户可以选择对数据加密或不加密。选择密钥服务还是自定义密钥,并且选择相应的算法使用数据的加密功能。对于存量的项目,用户可以联系Ma想 computer服务人员开通相应功能。 Max compute提供的是servers服务,它有一个强大的安全砂箱隔离机制,支持完整的用户自定义函数的种类,支持不受限的java和package的砂箱,并且也支持native的banner为扩展。除此之外,AMAX CPU还支持用户自定义的引擎,例如spark flink,test flow等开源计算引擎,通过强大的用户自定义引擎,保障计算过程中的安全。

图片10.png

在共享过程中,首先在项目之间,例如同一个租户的不同项目之间,可以通过protight的模式和package来实现数据的隔离和一定程度上的共享,来保障不同业务之间的数据安全,防止数据泄露,对于不同的租户之间,有租户隔离来保障数据安全,防止数据泄露。数据从大数据平台分发到下游的数据应用或用户时。可以通过download权限来管理大批量数据分发,同时可以通过端识别机制对应用进行签名,可以对不同的应用赋予不同的权限,让他们去获取不同的数据,进行不同的管理类别操作。在应用上可以保证访问到应该访问的应用,执行权限范围内的一些操作。

图片11.png

通过敏感数据保护或隐私数据保护应对数据泄露,数据保护贯穿整个数据生命周期。在进行数据采集的时候,数据进入到大数据平台时可以使用max compute的列级别的权限控制,对数据进行字段级别的分类分级,可以表示数据的不同的安全分类,不同的安全等级,来进行权限访问控制,敏感数据可以给高级别的安全权限,限制只有高级别的用户能够访问。在做数据共享的时候,可以做数据脱敏,对于比较敏感的信息,例如身份证信息、银行卡信息、电话号码信息,这些数据信息在做数据呈现时,难免会呈现给不同的用户或数据。由于涉及到个人隐私,不能直接做全量的呈现,可以使用数据脱敏。功能脱敏功能是基于Max compute的平台能力,在平台能力之上,数据保护伞提供了工序层面的脱敏应用。脱敏功能首先通过data works进入数据保护伞,然后对数据脱敏进行配置,例如对哪些敏感数据用什么逻辑算法进行脱敏,如果是data works层面的脱敏,用户在data works中执行一条select语句之后,如果出来的是敏感数据,敏感数据就会被模糊化。如果用户选择在Max compute层面做数据脱敏,脱敏的效果除了在data works中能够看到屏幕显示脱敏,通过其他任何渠道查询出来的屏幕显示也都会被脱敏。

图片12.png

4.数据丢失

用户误操作会造成数据丢失。近期,Max compute发布了备份与恢复能力。在数据开发过程中,用户难免会有误操作,例如不小心删除了数据或者覆盖了数据。对于以上情况。用户如果想要恢复之前的版本,就可以使用新的备份与恢复功能,无需用户手工操作,备份会自动记录备份每一次的数据变化历史可在需要时对数据恢复到特定历史版本。用户可以找到对应的历史,并恢复到特定的历史版本,

图片13.png

例如用户不小心删除了某个分区数据:

图片14.png

用户发现误操作之后需要恢复就可以回去找到对应的历史版本以及对应历史版本的分区号,最后执行恢复操作,把数据恢复回来一些灾害情况或意外情况的发生,也会导致数据丢失。这样的情况可以使用跨地域的异地容灾,异地容灾可以做到把数据备份在不同的地域中的两个集群。如果用户为某一个Max compute项目指定了备份。 Max computer会把主集群的数据自动同步到备集群,当意外情况发生,需要做备份切换的时候,会自动切换到备集群,使用备集群的计算资源去访问备集群的已经备份的数据,切换过程可以对用户做到相对透明。

还有一类应对措施贯穿四大风险,就是风险的预警和审计,也就是常说的审计和分控,审计和风控主要回答的是所有的数据所有的操作是否合规,是否有危险。除了前面的主动防御措施和事前措施,事后还可以有补救措施。风险预警和审计也可以分为二个层面。首先是Max compute大数据平台提供平台的能力。近期发布的功能主要是实时审计日志功能。实施审计日志会提供完整的用户操作日志,基于平台能力,data works上数据保护伞或数据中心可以通过白屏化平台,让用户进行更方便的使用,更直观地做风控审计。日志完整地记录用户在Max compute项目内的操作行为,把这些用户操作行为接入到阿里云的服务中,在服务中用户可以查看检索任何操作,并可以把所需要的数据投递到阿里云日志或者oss上,进一步的基于日志和oss做分析、预警,所以基于实时审计日志功能,用户可以满足实时审计以及事后分析两方面的功能,应用的场景基于日志上的行为分析,可以帮助用户回答权限有没有被合理使用,因为其中包括了健全的日志;敏感数据有没有被不合理的访问或数据下载的使用频率是否有异常,用户使用数据范围是否异常,这一类问题都能做出详细回答,实时审计日志只是操作行为的记录,还需要用户投递到相应的日志或oss上进一步的分析,需要用户做一定的数据开发,如果用户需要直接的风控和审计产品进行使用,可以参考data works,数据保护伞能够为用户提供风控审计和用户管理。

 

三、总结

从大数据平台体系来看,把大数据平台的功能和安全能力一一对应到数据的生命周期安全中,近期的新功能主要集中在存储处理和交换这三个数据生命周期阶段以及贯穿所有生命周期阶段的审计日志的功能发布。

Max compute已经通过的一系列国际欧洲以及国内的合规安全认证:

图片15.png

在总体竞争能力上,Max compute是在大数据平台产品中属于安全能力较领先的产品。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
620 14
|
11月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
390 4
|
11月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
481 3
|
11月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
10月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
965 0
|
9月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
283 14
|
10月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
9月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
9月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
300 1
|
9月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
939 1

热门文章

最新文章