飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(三)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute

开发者学堂课程【SaaS 模式云数据仓库实战飞天大数据产品价值解读—  SaaS 模式云数据仓库 MaxCompute学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/760/detail/13341


飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute


十四、MaxCompute 是面向分析的统一数据平台

MaxCompute 是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察。

现代化的数据平台(Modern data platfrm)要求企业能够对业务做更实时的响应、处理不断增加的不同类型数据、利用新技术挖掘数据更深入的价值。

图片14.png

过往提及数据仓库往往事ETL处理的能力,SQL的查询能力这种往往是对历史数据的分析,面向人去做数据决策的支持,现代化的数据平台需要一个平台同一份数据能够满足更多的分析场景,而同一平台下更加简化了企业的架构,使其能够更快的获取分析洞察。主要分为以下三部分:

1.更实时的数据洞察

支持批量和流式数据接入,将业务洞察从T+1拉近到准实时/实时洞察

① MaxCompute Tunnel服务

过去MaxCompute支持离线导入,如今更加支持实时的数据导入。

离线

准实时

实时

② 产品级别打通集成消息服务:

通过Datahub自定义日志、消息,实现实时的数据导入

DTS-关系型数据实时接入

SL5-行为日志实时接入

Kafka-物联网、日志接入

*注:实时接入能力即将全面开放

2.联合并查询几乎任何数据

图片27.png

( structure | semi-structure | non-structure )

(Internal datal External data )

No One-Size-Fits-A11,让数据存放在最合适的位置,通过计算联动

MaxCompute作为数据的核心平台现代的数据格式,一些日志数据大都存在于OSA上,而有部分数据并不适合放在仓库当中,如NoSql的数据,更适合放在数据库中而非数据仓库中,往往需要做关联分析,因而MaxCompute提供了联合并查询可以和数据湖、数据库这些服务能够打通,最终实现数据不加载到同一个地方,但逻辑上是一个统一、集中的处理平台。

① 动数据湖系统

② 联动“数据库”

针对事务类和结构化数据计算逻辑下推克持数掘写回到数捆库系统

3.面向分析:机器学习与大数据的融合平台

MaxCompute是一个与PAI无缝集成的平台,同时内建主流机器学习框架支持,无需移动数据获得深入洞察分析。即提供BI的能力又提供AI集成的能力。

使用MaxCompute开发基于机械学习的智能应用:

离线或实时接入数据到MaxCompute

使用MaxCompute SQL处理大规换数据&准备模型需要的数据

使用用户偏好的机器学习工具开展特征工程&训练&评估&预测

PAI Studio-提供百余种常规机器学习算法组件,包括数据预处理,特征工程、统计分析、机器学习、深度学习、时间序列、文本分析、网络分析等,可直接访问处理MaxConpute项目数据

Spark-ML/MLlib:MaxComputer 出spark服务

Python三方库:通过Pyodps,可集成Sclikit-Leam机器学习库开展分析

SQL ML: Maxcompute SOL提供SQL语法集成的机器学习能力

4.案例2:统一分析平台:近实时分析 -支撑在线运营分析场景

以下介绍的是 Maxcompute实时数据写入,实时分析的场景,首先显示的场景是binlog数据采集到mysql当中做实时分析,使用SQL代码:select  * form t_streaming_ingestion;查询得到的表是一个实时的表。

之后从mysql数据库表中,采集binlog,执行sql语句在日志中实时的插入一条数据:insert into rds_dis value(‘LA’);会对应产生binlog的日志,通过执行sql语句:select  *from res_din;即可查看到,插入后表实时的全部数据,最后通过DataStudio实时采集的能力。

对应配置一个实时采集的链路,数据源设置为刚实时采集的mysql表

目标是mysql临时写入的表。

之后便会创建一个实时的同步任务,该任务会从binlog中采集数据后再写入 Maxcompute。

最后再次执行SQL语句:select  * form t_streaming_ingestion;执行成功后即可看到刚才成功插入的数据:LA。

以上就是实时写入的场景,即如之前所说由于有了近实时的写入分析功能后,Maxcompute就可以从过去的离线数仓能够很好的支持在线的近实时的环境。

十五、统一分析平台:MaxCompute面向BI/Ad-hoc场景高性能查询demo

一个平台可以支持多种场景,MaxCompute和Table因为有无缝集成,所以通过Table可以直接访问MaxCompute的数据。

1.总结回溯:

第一个场景是指数据具有秒级写入的能力,能够在非常短的间隔内获取数据,获取数据后往往面向运营人员去做近实时的分析,通过BI的报表去读取线上的数据去做实时对比分析,这也是线上运营常见的问题需求。

第二是说许多的分析师往往是采用编写sql的方式在一些比较大的明细数据上做探索分析,而过去使用MaxCompute的用于对于机器查询的体验并不好,而如今支持的快速查询的能力能够快速的对BI产品和机械查询的场景做高性能支持。


十五、统一分析平台- MaxCompute 深度集成 Spark

1.统一分析平台- MaxCompute深度集成Spark:”一套数据支持多种引擎”,在全托管的统一数据平台上使用主流&熟悉的计算引擎,满足更丰富计算场景的需要。

MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具。MaxnCompute项目用户,可在统一的数据存储、权限管控体系内,利用Spark进行应用开发。

在此介绍同一份数据多计算引擎的场景,数据开发种的习惯和效率是开发者较为关心的内容,传统数据仓库的sql和UDF组合能够很好的满足数据仓库分析的场景,但更多开发者多使用Spark这样的开发引擎去做分析,MaxCompute也在服务内深度集成了Spark,而Spark作为MaxCompute的内部引擎之一内建在其中共享了同一个MaxCompute数据存储中。同时MaxCompute的计算资源同一份的计算安全体系在,此基础上开发者可以使用Spark对MaxCompute的数据进行分析,同时还可以基于Spark去得到原生的Spark开发体验同时和DataStudio做更深的调度集成。

以数据为中心:无需从数据仓库中移动数据到Spark集群

统一解决方案∶统一的权限体系

挖掘数据价值∶复杂ETL、机器学习、外部数据源分析

开放兼容:支持原生Spark应用,存量Spark应用无缝迁移

2.无缝集成与原生使用体验


十六、统一分析平台:现代化的数据仓库+数据湖解决方案

统一分析平台:现代化的数据仓库+数据湖解决方案通过一致的数据管理体系整合和联动跨源的多种结构数据。

1.图解

连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。

2.收益

一个产品支持多种计算模式,数据无需移动即可满足多分析场景需求,同时满足数据安全、合规需求

利用外表方式、Spark应用,直接对数据湖开放格式数据进行处理分析

无需ETL,跨数据源的联邦计算

BigData+Al,直接对数据仓库数据进行开展机器学习应用

全托管的Serverless架构,存储/计算分离,超大规模弹性伸缩,按量付费,无需资源开通、无需平台运维、无需性能调优、不需要容量规划

在MaxCompute中提到过的数据仓库是一个传统的数据分析管理级别方案,而如今数据湖;尤其是数据在云上存储,OSS变成了一个云上的数据存储交换中心,企业中的很多数据存储会在OSS中,而高价值的数据会放在数据仓库中,因为数据仓库中会面向分析做许多的优化以此保证它的处理性能和效率,而大量数据是低频,无价值的此类非结构化数据放在OSS上,而MaxCompute通过外部表的方式,或Spark直接去处理OSS的能力,使其能够和云上的数据湖打通,集成,通过外部表的形式还可以通过表的连接做联邦的查询。同时还可以通过restore命令将OSS中的数据快速加载到数据仓库当中,由此进一步加深数据湖和数据仓库的集成。

图片22.png

十七、统一分析平台-AI集成的一体化数据平台

统一分析平台是BI+AI 的集成,如今的数据应用对于智能化的要求逐渐增高,大数据平台常见的业务也建设了基于数据仓库的建设,用户的划项,个性化的推荐,人群的圈选和各种风控方面的应用,以及智能客服等等的应用。企业的数据是一个统一被管控的情况,在统一的技术平台上采用尽量将计算和数据解耦合之后放在一套平台上进行处理,使其既能做大数据也可以做AI的分析。

1.挑战:

(1)真实的人工智能场景依赖大数据平台提供数据供给,进行数据预处理。如何在企业统一的数据资产及安全体系之上,同时开展BI分析和AI分析充分挖掘数据价值,不因计算而移动数据,避免数据孤岛和资源浪费

(2)如何屏蔽异构的计算资源(CPU/GPU)的复杂性,对外提供简单

易用的界面

2.应对:大数据与人工智能融合的分析平台(MaxCompute+PAI)

MaxCompute和PAI是天然的一体化集成平台,同时基于Python生态的学习能力能够很好的处理保存在MaxCompute上的企业数据仓库数据,然后进行相关的数据分析。PAI在之后的专题进行讲解。

(1)MaxCompute资源管理统一对异构资源(支持CPU、GPU计算资源)进行管理,屏蔽异构的计算资源(CPU/GPU)的复杂性;

(2)MaxComptue提供统一数据存储、统一权限体系下、统一计算引擎,支持对数据开展包括离线处理、交互式分析、机器学习/深度学习在内的分析;

(3)机器学习平台PAI ( Platform of Artificial Intelligence ) ,为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务,极大降低了AI创新的成本和门槛。

3.智能数据应用

4.通过算法挖掘数据价值

5.融合统一的大数据与AI分析平台


十八、高性能/低成本的技术底座

MaxCompute的产品价值第三个主题,

1.MaxCompute是个高性能/低成本的技术底座:MaxCompute带来了财务支出的灵活性和业务敏捷性,真实TCO低至Hadoop自建1/3。

(1)减少前期投入,快速验证价值

开篇曾说过数据平台的发展从单机分布式,Hadoop平台以及云上的存储计算分离servless架构都是在解决性能,成本和效能这三大关键点,第一,而当数据规模越来越大时,这种成本影响因素会越来越重,而和Hadoop的自建相比MaxCompute按量付费的模式它的产品属于OpEX模式不需要采购机器,省去了大量的前期成本。第二,MaxCompute本身是免运维的系统,用户在使用时在运维管理扩容相关的管理成本是不需要的。总体这两特点极大减少了平台的前期投入,可以将其将精力放在验证价值应用上。

(2)高性能、低成本的大数据分析服务

同时MaxCompute已参加三年的大数据标准测试集,在30TB和100TB都拿到过很好的成绩,简而言之,相比hadoop自建平台的性能快一倍,成本低一半,这是被TBC组织官方认可的性能表现。

(数据来源:软硬件配置、成本、性能数据来自tpc.org官网的信息发布)

”性能快1倍,成本低1半”VS Hadoop

*连续3年TPCx-BB全球最佳。

更符合现代数据分析负载需求

*TPCx-BB: TPC组织官方发布的面向大数据分析的测试标准,在结构化数据分析基础上,增加了半结构化和非结构化数据的测试,同时在数据仓库负载基础上增加了机器学习用例的测试,更符合大数据实际的分析场景。

图片34.png

(3)最小化运维管理投入,真是TCO低至1/3

因而既有技术平台的投入,又有大量人为运维成本投入,结合具体的数据,可知相比Hadoop自建,MaxCompute可节省1/3的成本。

2.新技术的投资不止于离线数仓/ETL有极强的算力支持超大规模的复杂计算,同时MaxCompute面向BI/Ad-hoc场景集成分析高性能服务,也支持弹性并发加速的能力

(1)SSB测试集和TPC-DS测试集

通过线上测试和客户反馈,得到以下数据。SSB和Presto对比而言,在不同数据集中MaxCompute都有更好的表现,所以拥有MaxCompute的弹性并发加速的能力后,MaxCompute即可满足Hadoop自建数仓的场景,也能解决Presto这种报表机器查询的需求,在同一份数据和技术资源池上。

以上就是所有弹性,架构的相关。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
NoSQL Cloud Native 关系型数据库
阿里云RDS云数据库详解(三分钟)
阿里云RDS云数据库详解(三分钟),阿里云RDS关系型数据库如MySQL版、PolarDB、PostgreSQL、SQL Server和MariaDB等
228 1
|
3月前
|
运维 数据库 数据库管理
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现
云数据库问题之阿里云在运营商领域数据库替换的整体解决方案要如何实现
|
29天前
|
缓存 弹性计算 NoSQL
新一期陪跑班开课啦!阿里云专家手把手带你体验高并发下利用云数据库缓存实现极速响应
新一期陪跑班开课啦!阿里云专家手把手带你体验高并发下利用云数据库缓存实现极速响应
|
4月前
|
NoSQL Cloud Native Redis
|
6月前
|
Cloud Native 自动驾驶 NoSQL
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限
国际市场研究机构Gartner®日前公布2023年度全球《云数据库管理系统魔力象限》报告,阿里云成为亚太区唯一入选该报告“领导者(LEADERS)”象限的科技公司,同时也是唯一一家连续4年入选“领导者”象限的中国企业。
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限
|
6月前
|
弹性计算 关系型数据库 MySQL
阿里云MySQL云数据库优惠价格、购买和使用教程分享!
阿里云数据库使用流程包括购买和管理。首先,选购支持MySQL、SQL Server、PostgreSQL等的RDS实例,如选择2核2GB的MySQL,设定地域和可用区。购买后,等待实例创建。接着,创建数据库和账号,设置DB名称、字符集及账号权限。最后,通过DMS登录数据库,填写账号和密码。若ECS在同一地域和VPC内,可内网连接,记得将ECS IP加入白名单。
890 2
|
6月前
|
存储 弹性计算 NoSQL
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
185 2
|
6月前
|
关系型数据库 Serverless 分布式数据库
碧桂园服务使用阿里云PolarDB Serverless云数据库实现降本增效。
碧桂园集团,即碧桂园控股有限公司新型城镇化住宅开发商,采用集中及标准化的运营模式,业务包含物业发展、建安、装修、物业管理、物业投资、酒店开发和管理、以及现代农业、机器人。
|
6月前
|
Cloud Native 关系型数据库 分布式数据库
凭安征信引入阿里云PolarDB云数据库支撑企业征信核心业务系统
凭安征信是国家中小企业公共服务示范平台,主营信用管理服务包括信用管家、水滴信用及可信认证。通过采用阿里云PolarDB云原生数据库替代RDS数据库帮助客户全面实现业务系统性能提升1-2倍,通过PolarDB企业级能力的加持下,运维更加简便,操作更加简单,数据安全能力更强。
|
6月前
|
关系型数据库 MySQL 分布式数据库
横琴人寿引入阿里云PolarDB云数据库支撑寿险核心业务上云
横琴人寿近年来启动了数字化转型,IT基础设施云化是转型的一个重要方向,数据库的云原生化是其中的核心工作之一,选型过程中重点考察了阿里云PolarDB MySQL数据库,三层解耦、极致弹性、100%兼容、高性价比等方面表现突出,在后续使用过程中对寿险的核心业务上云起到了很重要的作用。

热门文章

最新文章