持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)

简介: 快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

开发者学堂课程【SaaS 模式云数据仓库实战持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/761/detail/13350


持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护


3.数据泄露

数据的生命周期由数据采集开始,进入大数据平台,进行数据传输,数据处理,数据交换和数据存储,最后直到数据被销毁,或者退出的大数据平台,这是完整的数据生命周期。数据泄露可能发生在数据生命周期中的任何一个阶段。数据流转:

图片9.png

首先从各个渠道例如应用端、采集端,采集端首先采集到各类数据,各类数据通过不同的传输渠道传输进入大数据平台,在大数据平台之内,这些数据会被进行各种计算处理,会做各种各样的交换和共享,最后会被存储在大数据平台之上,被处理之后的数据会通过不同的出口,不同的形式,被交换共享到下游的数据应用,也可能直接被一些终端用户直接访问。应对数据泄露,可能发生在采集时、传输时、存储时。在数据存储周期内,如何来保障数据安全,应对数据泄露:近期,发布的新功能是数据加密功能,为了保障用户的数据存储安全,在数据落盘的时候,提供了数据加密功能,根据不同用户的选择,使用特定的密钥,选择特定的算法对数据进行加密,在数据被用户读取时或计算时又会进行自动解密,所以加密解密过程对用户是来说是透明的,只是数据在落盘存储的时候,是被加密过的,如果被恶意用户直接访问到硬盘上的数据或者硬盘被用户直接拖走的情况下,如果没有密钥措施,用户无法读取到硬盘上的数据,因为Max compute的密钥管理是基于阿里云的密钥管理服务,所以用户在使用时,也需要开通kms服务。在近期的数据加密上重点发布了两个功能,基于用户自定义密钥除了KM4提供的服务密钥,用户还可以选择用户自定义密钥。此外,还支持国密算法,因为原先在数据加密层中,主要支持的算法有aes等,但是因为国家也在推动加密算法的合规标准,国密算法也作为新的合规标准之一,近期也会被支持。在用户使用加密存储时,新建项目用户可以选择对数据加密或不加密。选择密钥服务还是自定义密钥,并且选择相应的算法使用数据的加密功能。对于存量的项目,用户可以联系Ma想 computer服务人员开通相应功能。 Max compute提供的是servers服务,它有一个强大的安全砂箱隔离机制,支持完整的用户自定义函数的种类,支持不受限的java和package的砂箱,并且也支持native的banner为扩展。除此之外,AMAX CPU还支持用户自定义的引擎,例如spark flink,test flow等开源计算引擎,通过强大的用户自定义引擎,保障计算过程中的安全。

图片10.png

在共享过程中,首先在项目之间,例如同一个租户的不同项目之间,可以通过protight的模式和package来实现数据的隔离和一定程度上的共享,来保障不同业务之间的数据安全,防止数据泄露,对于不同的租户之间,有租户隔离来保障数据安全,防止数据泄露。数据从大数据平台分发到下游的数据应用或用户时。可以通过download权限来管理大批量数据分发,同时可以通过端识别机制对应用进行签名,可以对不同的应用赋予不同的权限,让他们去获取不同的数据,进行不同的管理类别操作。在应用上可以保证访问到应该访问的应用,执行权限范围内的一些操作。

图片11.png

通过敏感数据保护或隐私数据保护应对数据泄露,数据保护贯穿整个数据生命周期。在进行数据采集的时候,数据进入到大数据平台时可以使用max compute的列级别的权限控制,对数据进行字段级别的分类分级,可以表示数据的不同的安全分类,不同的安全等级,来进行权限访问控制,敏感数据可以给高级别的安全权限,限制只有高级别的用户能够访问。在做数据共享的时候,可以做数据脱敏,对于比较敏感的信息,例如身份证信息、银行卡信息、电话号码信息,这些数据信息在做数据呈现时,难免会呈现给不同的用户或数据。由于涉及到个人隐私,不能直接做全量的呈现,可以使用数据脱敏。功能脱敏功能是基于Max compute的平台能力,在平台能力之上,数据保护伞提供了工序层面的脱敏应用。脱敏功能首先通过data works进入数据保护伞,然后对数据脱敏进行配置,例如对哪些敏感数据用什么逻辑算法进行脱敏,如果是data works层面的脱敏,用户在data works中执行一条select语句之后,如果出来的是敏感数据,敏感数据就会被模糊化。如果用户选择在Max compute层面做数据脱敏,脱敏的效果除了在data works中能够看到屏幕显示脱敏,通过其他任何渠道查询出来的屏幕显示也都会被脱敏。

图片12.png

4.数据丢失

用户误操作会造成数据丢失。近期,Max compute发布了备份与恢复能力。在数据开发过程中,用户难免会有误操作,例如不小心删除了数据或者覆盖了数据。对于以上情况。用户如果想要恢复之前的版本,就可以使用新的备份与恢复功能,无需用户手工操作,备份会自动记录备份每一次的数据变化历史可在需要时对数据恢复到特定历史版本。用户可以找到对应的历史,并恢复到特定的历史版本,

图片13.png

例如用户不小心删除了某个分区数据:

图片14.png

用户发现误操作之后需要恢复就可以回去找到对应的历史版本以及对应历史版本的分区号,最后执行恢复操作,把数据恢复回来一些灾害情况或意外情况的发生,也会导致数据丢失。这样的情况可以使用跨地域的异地容灾,异地容灾可以做到把数据备份在不同的地域中的两个集群。如果用户为某一个Max compute项目指定了备份。 Max computer会把主集群的数据自动同步到备集群,当意外情况发生,需要做备份切换的时候,会自动切换到备集群,使用备集群的计算资源去访问备集群的已经备份的数据,切换过程可以对用户做到相对透明。

还有一类应对措施贯穿四大风险,就是风险的预警和审计,也就是常说的审计和分控,审计和风控主要回答的是所有的数据所有的操作是否合规,是否有危险。除了前面的主动防御措施和事前措施,事后还可以有补救措施。风险预警和审计也可以分为二个层面。首先是Max compute大数据平台提供平台的能力。近期发布的功能主要是实时审计日志功能。实施审计日志会提供完整的用户操作日志,基于平台能力,data works上数据保护伞或数据中心可以通过白屏化平台,让用户进行更方便的使用,更直观地做风控审计。日志完整地记录用户在Max compute项目内的操作行为,把这些用户操作行为接入到阿里云的服务中,在服务中用户可以查看检索任何操作,并可以把所需要的数据投递到阿里云日志或者oss上,进一步的基于日志和oss做分析、预警,所以基于实时审计日志功能,用户可以满足实时审计以及事后分析两方面的功能,应用的场景基于日志上的行为分析,可以帮助用户回答权限有没有被合理使用,因为其中包括了健全的日志;敏感数据有没有被不合理的访问或数据下载的使用频率是否有异常,用户使用数据范围是否异常,这一类问题都能做出详细回答,实时审计日志只是操作行为的记录,还需要用户投递到相应的日志或oss上进一步的分析,需要用户做一定的数据开发,如果用户需要直接的风控和审计产品进行使用,可以参考data works,数据保护伞能够为用户提供风控审计和用户管理。

 

三、总结

从大数据平台体系来看,把大数据平台的功能和安全能力一一对应到数据的生命周期安全中,近期的新功能主要集中在存储处理和交换这三个数据生命周期阶段以及贯穿所有生命周期阶段的审计日志的功能发布。

Max compute已经通过的一系列国际欧洲以及国内的合规安全认证:

图片15.png

在总体竞争能力上,Max compute是在大数据平台产品中属于安全能力较领先的产品。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
6月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
7月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
1391 11
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
279 3
|
12月前
|
存储 人工智能 分布式计算
阿里云云数据仓库:助力企业构建智能数据基石的云端利器 。阿里云云数据仓库优势与选型指南
阿里云数据仓库体系基于MaxCompute、AnalyticDB等核心产品,提供弹性敏捷的PB级数据处理能力,支持实时分析与智能决策。其六大优势包括无限弹性伸缩、极致性能表现、智能成本优化、全栈安全体系、生态无缝对接和AI增强分析,助力企业在数字经济时代应对数据爆发式增长的挑战。灵活透明的定价体系和行业实践案例展示了其在证券、新零售、物联网等领域的成功应用,为企业构建智能数据基座提供了清晰路径。
499 6
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
216 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
存储 大数据
究竟什么是大数据,大数据具体应该怎么定义
【10月更文挑战第29天】大数据是指那些传统资料处理技术无法应对的海量数字信息,包括文本、音视频、电子邮件等多类型数据。它涉及数据的获取、分析、存储与传输,需借助专门的技术手段。大数据分析能够帮助企业洞察消费者行为、预测市场趋势,从而实现业务增长。随着数字化进程加快,高效管理与利用大数据成为企业面临的重大挑战。
462 2
|
数据采集 大数据 数据安全/隐私保护
大数据列表删除的定义
【10月更文挑战第23天】
204 1
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
355 2

热门文章

最新文章