飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(二)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
函数计算FC,每月15万CU 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute

开发者学堂课程【SaaS 模式云数据仓库实战飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/760/detail/13341


飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute


八、MaxCompute 是 Serverless 的云原生数据仓库服务

MaxCompute是Serverless的云原生数据仓库服务,能够极大降低创新门槛、加速价值实现。

MaxCompute是构建超大规模的计算资源池上,我们的使用用户感知不到资源池的存在,仅仅是在逻辑上知晓需要做产品的开通,项目空间的创建,数据的建模,然后在项目空间中过去做数据的分析即可,因而MaxCompute是一套非常敏捷的服务模式,能够极大的降低数据使用中的门槛,能够将以月为单位的数据服务降低到以天级别。

1.扩展性&弹性

l 大规模计算资源预先部署的“在线服务”,用户无需资源开通、无需扩容缩容

l 弹性:作业级别自动伸缩:根据每个作业的不同,秒级自动分配资源大小

l 超级算力:MaxCompute根据作业需要可分配超级弹性,MaxCompute根据作业需要可在秒级为单作业分配数千Core并行处理,算力强大

2.低使用成本

l 存储与计算独立伸缩,独立计费,无需为存储扩容资源.真正的"按使用付费”,按量付费模式仅在运行作业时收费,不为空闲IDLE资源付费;

l 配套的费用预警等费用控制手段;

3.免运维

l 无需运维团队对基础设计、软件平台运维,MaxCompute提供服务级别SLA保障

l 无需提前容量规划,根据实际的业务规模自动适配资源和花费;

l 无需进行索引、分布键设置、 vacuuming等调优工作No indexes, distribution keys, vacuuming

l 后台智能化优化,如小文件自动合并

 

九、Serverless 意味着更敏捷的业务响应和快速试错、创新-从开通到第一个查询

1. demo1

Demo1讲述的是在使用MaxCompute时候,通过阿里云的web控制台能快速的开通MaxCompute的服务。然后快速的创建MaxCompute的环境。

1)输入工作空间名称:mc_poc后点击下一步

2)点击下一步后选中按量付费后再下一步。

图片5.png

3)设置MaxCompute数据类型:2.0数据类型(推荐),项目名称:mc_poc,访问身份:任务负责人,最后点击创建项目空间。

图片6.png

创建成功后即可看见以下新建的MaxCompute项目。

创建完成后点击操作-进入数据开发,进入DataStudio数据分析开发的界面中。可以看到刚才创建的新的大数据分析的项目,右键新建节点,快速的编写一个sql,开启第一次的大数据查询之旅。

图片8.png

输入sql查询语句:select * from public_data.ods_enterprise_share_basic where ds = ’20170114’;点击运行按钮,执行语句,由于MaxCompute含有线上的公共数据集,因而可以在无需导入数据的前提下,就可以利用公共数据集进行探索常见的使用,同时公共数据集中有TB级别的公共数据,所以可以面向全网用户是公开开放的。

图片8.png

查询结束后,得到以下结果集,而从项目的创建到最终查询,仅花费2分钟左右。

图片9.png

以上demo1的操作说明Serverless实际上是一个服务化的产品,只需要根据所需要的业务去快速创建开通即可使用。而从开通到第一个查询的时间也仅仅2分钟,该模式有两种好处,第一,是初创企业可以在低成本的环境下快速的通过数据链路将商业逻辑走通,快速验证业务价值,第二,同时在大企业中新的创新部门也需要独立环境进行新颖的开发,而MaxCompute就能够很好的支持这些。

 

十、Serverless 意味着简单、强大计算能力,无需容量规划匹配业务快速变化的需求

以下是用户写的较为复杂的sql的事件,此作业处理的事务规模其实较为庞大,是在十分大的数据集基础下,以图中第一个map的stage来看,单个作业需要高达2万个cpu的work,至此可以知道MaxCompute的Serverless架构由于它有着超大资源池,使得我们可以使用非常小的数据集,也可以支持超大规模的资源池,能够提供十分强大的算力。

图片11.png

 

十一、Serverless 意味着更灵活的资源解决方案,兼顾成本与性能的需要

就Serverless定义而言,其往往是按需使用,而其本身在管理控制层面也含有自己的特点和问题,在企业数据平台初期创建时,由于数据规模不大,费用开销较小,但等待后期使用用户增多时,按需使用的模式就会带来许多麻烦。因而MaxCompute也做出了改变,不仅仅提供按需使用这种极致弹性的方式,还提供包年包月的资源规格,当企业数据平台资源稳定时适合购买包年包月的资源满足日常需求。同时在数据分析的场景,除了常用的ETL之外还有大量的临时查询,还有给数据科学家的探索分析等需求,通常对于算力的要求较高,同时也并非周期性的,此时就需要一种突发的能力,所以MaxCompute提供多种资源规则,可根据不同的管理需求选择不同的规格,同时选择多计算资源打通,也可以使得一部分跑在包年包月上,一部分使用按量付费去获得极致的弹性。

图片28.png

1. 包年包月

·满足常规需求,稳定财务支出

·支持作业优先级,保障关键任务稳定产出

·支持存储与计算资源包购买

2. 按需使用

·无服务器架构,超大规模的存储和计算扩展能力

·自动匹配业务需求,完美适配业务的高速变化

·不使用不付费

3. 多计算资源打通

·融合打通包年包月与按需使用的弹性资源,只需联合开通,即可实现更优的成本与性能平衡的资源解决方案

4. 抢占空间资源

·非预留计算资源,抢占并使用服务空闲计算资源,价格较包年包月标准计算资源下降74%。

 

十二、MaxCompute 是天然的多租户系统

MaxCompute是天然的多租户系统-统一元数据和数据存储,通过权限实现跨业务/组织的数据隔离与共享,是消除数据孤岛、提高数据共享效率的重要技术数段。

1.完整的多租户系统,实现数据、计算资源、计算任务(沙箱)的安全隔离。

2.组织内部通过Project进行数据和计算的隔离(workload isolation),消除业务间的资源争抢3.提供统一的元数据,企业内各部门/业务的完整数据视图一览无余,提供完整的企业数据资产视图。

4.支持跨项目间的数据访问授权,高效、低成本地在企业内共享数据,实现每个个人对企业各项数据资源的受控使用。

5.业界最完整的安全管理体系,支持跨项目数据安全管理、细粒度的访问控制、数据加密、隐私数据保护、操作使用行为审计能力。

图片27.png

图中主要讲述在MaxCompute中有不同的站和集群,而集群之上不同客户(租户)也开通了MaxCompute的不同服务,而每个租户也创建了相互隔离的一些开发项目,开发项目之上也可能有组织内不同的团队,部门来使用它,由此引入,我们在多租户的情况下需要保障租户之间有很强的隔离性,同时也要通过之间的权限控制允许组织内和组织间能做很好的数据共享,之前提到在传统数据间一个很大的痛点是扩展性,而由于数据都在一个共享的超大资源池中,因而客户的不同组织部门可以将企业的各种数据统一的存入一个集中场所,然后通过权限控制来实现,统一的资产和视图,同时满足不同部门的隔离和共享需求。

 

十三、多租户体系下企业级可信赖的数据管理平台

多租户体系下企业级可信赖的数据管理平台-MaxCompute拥有最全面的安全管理机制,提供业界领先的安全能力。不仅带来了许多好处,更是带来了许多技术挑战,因为在多租户体系下需要更好的去完成用户的安全控制和防护,由于MaxCompute在平台创立之期就是一个天然的Serverless和多租户的环境,因而该产品内部也内置了许多安全管理机制,这些安全机制从内部以及公共云上众多的客户在使用上来保障每个用户的安全保障能力,在此具体是指基础设置安全是由阿里云来保障,同时面向访问控制与授权,数据安全,风险控制以及多租户自定义的安全隔离也做了许多管理功能,在此讲解近来较为关注的数据恶意删除,数据泄露的风险。

图片15.png

1. 案例-1持续保护企业数据安全:数据加密、实时审计及持续备份恢复

1)MaxCompute提供数据加密的能力

在创建一个新的开发空间时,可以选择对数据进行项目的加密,选择默认的密钥或是自定义的密钥,同时也可以选择对应的加密算法,有了此能力后数据存放在云上既是达到了数据存放安全的能力。

图片15.png

同时由于MaxCompute和阿里云上的KMS密钥系统做了相关的集成可以支持自定义的密钥来保证数据的安全。

图片32.png

2)实时审计和数据恶意删除恢复

接下来讲解实时审计和数据恶意删除恢复的场景,首先在DataStudio中编写Sql语句:

select *from tbl_dev;

drop table tbl_dev;

show history for tables;

restore table tbl_dev(‘id’=’4c5672d27bf0430ba9826b61f35f1fb0’;

select *from tbl_dev;

挨个语句点击运行,此时即成功营造了表被恶意删除的情况下,控制台就会报错显示表数据丢失。常见情况下就会去查找谁将该数据丢失,而MaxCompute就提供这种实时审计的能力,在阿里云的实时审计日志中就可以查看到该表在何事件被何人给删除,做了怎样的操作以此去做追溯。

图片29.png

数据丢失后需要将重要的数据找回,而MaxCompute内建了服务级别自动备份的能力,也就是说数据删除后默认被保存,最后通过默认的管理命令restore来找到恶意删除但被默认保存的数据给恢复,执行命令:restore table tbl_dev(‘id’=’4c5672d27bf0430ba9826b61f35f1fb0’;恢复被删除的数据后,再执行命令:select *from tbl_dev;即可成功查找到原先被删除的数据,如图。

图片22.png

以上就是多租户环境下,MaxCompute作为一个托管型的服务,在数据安全可靠性上做了许多的工作。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护
259 0
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
|
新零售 分布式计算 安全
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习日记(二)
快速学习 MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI
209 0
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习日记(二)
|
存储 分布式计算 运维
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习笔记
快速学习 MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI
446 0
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习笔记
|
存储 缓存 分布式计算
持续定义 Saas 模式云数据仓库+实时分析 | 学习笔记(二)
快速学习持续定义 Saas 模式云数据仓库+实时分析
238 0
持续定义 Saas 模式云数据仓库+实时分析 | 学习笔记(二)
|
存储 人工智能 分布式计算
持续定义 Saas 模式云数据仓库+实时分析 | 学习笔记(一)
快速学习持续定义 Saas 模式云数据仓库+实时分析
160 0
持续定义 Saas 模式云数据仓库+实时分析 | 学习笔记(一)
|
存储 分布式计算 运维
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
快速学习飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二),介绍了飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)系统机制, 以及在实际应用过程中如何使用。
421 0
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
|
存储 分布式计算 安全
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(一) | 学习笔记
快速学习飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(一),介绍了飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute系统机制(一), 以及在实际应用过程中如何使用。
402 0
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(一) | 学习笔记
|
存储 消息中间件 分布式计算
持续定义 Saas 模式云数据仓库 +实时分析 | 学习笔记
快速学习持续定义 Saas 模式云数据仓库 +实时分析,介绍了持续定义 Saas 模式云数据仓库 +实时分析系统机制, 以及在实际应用过程中如何使用。
179 0
持续定义 Saas 模式云数据仓库 +实时分析 | 学习笔记
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护 | 学习笔记
快速学习持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护,介绍了持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护系统机制, 以及在实际应用过程中如何使用。
232 0
持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护 | 学习笔记
|
分布式计算 运维 安全
MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI | 学习笔记
快速学习 MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI,介绍了 MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI系统机制, 以及在实际应用过程中如何使用。
212 0
MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI | 学习笔记

热门文章

最新文章