开发者学堂课程【SaaS 模式云数据仓库实战:飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/760/detail/13341
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
十四、MaxCompute 是面向分析的统一数据平台
MaxCompute 是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察。
现代化的数据平台(Modern data platfrm)要求企业能够对业务做更实时的响应、处理不断增加的不同类型数据、利用新技术挖掘数据更深入的价值。
过往提及数据仓库往往事ETL处理的能力,SQL的查询能力这种往往是对历史数据的分析,面向人去做数据决策的支持,现代化的数据平台需要一个平台同一份数据能够满足更多的分析场景,而同一平台下更加简化了企业的架构,使其能够更快的获取分析洞察。主要分为以下三部分:
1.更实时的数据洞察
支持批量和流式数据接入,将业务洞察从T+1拉近到准实时/实时洞察
① MaxCompute Tunnel服务
过去MaxCompute支持离线导入,如今更加支持实时的数据导入。
离线
准实时
实时
② 产品级别打通集成消息服务:
通过Datahub自定义日志、消息,实现实时的数据导入
DTS-关系型数据实时接入
SL5-行为日志实时接入
Kafka-物联网、日志接入
*注:实时接入能力即将全面开放
2.联合并查询几乎任何数据
( structure | semi-structure | non-structure )
(Internal datal External data )
No One-Size-Fits-A11,让数据存放在最合适的位置,通过计算联动
MaxCompute作为数据的核心平台现代的数据格式,一些日志数据大都存在于OSA上,而有部分数据并不适合放在仓库当中,如NoSql的数据,更适合放在数据库中而非数据仓库中,往往需要做关联分析,因而MaxCompute提供了联合并查询可以和数据湖、数据库这些服务能够打通,最终实现数据不加载到同一个地方,但逻辑上是一个统一、集中的处理平台。
① 动数据湖系统
② 联动“数据库”
针对事务类和结构化数据计算逻辑下推克持数掘写回到数捆库系统
3.面向分析:机器学习与大数据的融合平台
MaxCompute是一个与PAI无缝集成的平台,同时内建主流机器学习框架支持,无需移动数据获得深入洞察分析。即提供BI的能力又提供AI集成的能力。
使用MaxCompute开发基于机械学习的智能应用:
离线或实时接入数据到MaxCompute
使用MaxCompute SQL处理大规换数据&准备模型需要的数据
使用用户偏好的机器学习工具开展特征工程&训练&评估&预测
PAI Studio-提供百余种常规机器学习算法组件,包括数据预处理,特征工程、统计分析、机器学习、深度学习、时间序列、文本分析、网络分析等,可直接访问处理MaxConpute项目数据
Spark-ML/MLlib:MaxComputer 出spark服务
Python三方库:通过Pyodps,可集成Sclikit-Leam机器学习库开展分析
SQL ML: Maxcompute SOL提供SQL语法集成的机器学习能力
4.案例2:统一分析平台:近实时分析 -支撑在线运营分析场景
以下介绍的是 Maxcompute实时数据写入,实时分析的场景,首先显示的场景是binlog数据采集到mysql当中做实时分析,使用SQL代码:select * form t_streaming_ingestion;查询得到的表是一个实时的表。
之后从mysql数据库表中,采集binlog,执行sql语句在日志中实时的插入一条数据:insert into rds_dis value(‘LA’);会对应产生binlog的日志,通过执行sql语句:select *from res_din;即可查看到,插入后表实时的全部数据,最后通过DataStudio实时采集的能力。
对应配置一个实时采集的链路,数据源设置为刚实时采集的mysql表
目标是mysql临时写入的表。
之后便会创建一个实时的同步任务,该任务会从binlog中采集数据后再写入 Maxcompute。
最后再次执行SQL语句:select * form t_streaming_ingestion;执行成功后即可看到刚才成功插入的数据:LA。
以上就是实时写入的场景,即如之前所说由于有了近实时的写入分析功能后,Maxcompute就可以从过去的离线数仓能够很好的支持在线的近实时的环境。
十五、统一分析平台:MaxCompute面向BI/Ad-hoc场景高性能查询demo
一个平台可以支持多种场景,MaxCompute和Table因为有无缝集成,所以通过Table可以直接访问MaxCompute的数据。
1.总结回溯:
第一个场景是指数据具有秒级写入的能力,能够在非常短的间隔内获取数据,获取数据后往往面向运营人员去做近实时的分析,通过BI的报表去读取线上的数据去做实时对比分析,这也是线上运营常见的问题需求。
第二是说许多的分析师往往是采用编写sql的方式在一些比较大的明细数据上做探索分析,而过去使用MaxCompute的用于对于机器查询的体验并不好,而如今支持的快速查询的能力能够快速的对BI产品和机械查询的场景做高性能支持。
十五、统一分析平台- MaxCompute 深度集成 Spark
1.统一分析平台- MaxCompute深度集成Spark:”一套数据支持多种引擎”,在全托管的统一数据平台上使用主流&熟悉的计算引擎,满足更丰富计算场景的需要。
MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具。MaxnCompute项目用户,可在统一的数据存储、权限管控体系内,利用Spark进行应用开发。
在此介绍同一份数据多计算引擎的场景,数据开发种的习惯和效率是开发者较为关心的内容,传统数据仓库的sql和UDF组合能够很好的满足数据仓库分析的场景,但更多开发者多使用Spark这样的开发引擎去做分析,MaxCompute也在服务内深度集成了Spark,而Spark作为MaxCompute的内部引擎之一内建在其中共享了同一个MaxCompute数据存储中。同时MaxCompute的计算资源同一份的计算安全体系在,此基础上开发者可以使用Spark对MaxCompute的数据进行分析,同时还可以基于Spark去得到原生的Spark开发体验同时和DataStudio做更深的调度集成。
以数据为中心:无需从数据仓库中移动数据到Spark集群
统一解决方案∶统一的权限体系
挖掘数据价值∶复杂ETL、机器学习、外部数据源分析
开放兼容:支持原生Spark应用,存量Spark应用无缝迁移
2.无缝集成与原生使用体验
十六、统一分析平台:现代化的数据仓库+数据湖解决方案
统一分析平台:现代化的数据仓库+数据湖解决方案通过一致的数据管理体系整合和联动跨源的多种结构数据。
1.图解
连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。
2.收益
一个产品支持多种计算模式,数据无需移动即可满足多分析场景需求,同时满足数据安全、合规需求
利用外表方式、Spark应用,直接对数据湖开放格式数据进行处理分析
无需ETL,跨数据源的联邦计算
BigData+Al,直接对数据仓库数据进行开展机器学习应用
全托管的Serverless架构,存储/计算分离,超大规模弹性伸缩,按量付费,无需资源开通、无需平台运维、无需性能调优、不需要容量规划
在MaxCompute中提到过的数据仓库是一个传统的数据分析管理级别方案,而如今数据湖;尤其是数据在云上存储,OSS变成了一个云上的数据存储交换中心,企业中的很多数据存储会在OSS中,而高价值的数据会放在数据仓库中,因为数据仓库中会面向分析做许多的优化以此保证它的处理性能和效率,而大量数据是低频,无价值的此类非结构化数据放在OSS上,而MaxCompute通过外部表的方式,或Spark直接去处理OSS的能力,使其能够和云上的数据湖打通,集成,通过外部表的形式还可以通过表的连接做联邦的查询。同时还可以通过restore命令将OSS中的数据快速加载到数据仓库当中,由此进一步加深数据湖和数据仓库的集成。
、
十七、统一分析平台-AI集成的一体化数据平台
统一分析平台是BI+AI 的集成,如今的数据应用对于智能化的要求逐渐增高,大数据平台常见的业务也建设了基于数据仓库的建设,用户的划项,个性化的推荐,人群的圈选和各种风控方面的应用,以及智能客服等等的应用。企业的数据是一个统一被管控的情况,在统一的技术平台上采用尽量将计算和数据解耦合之后放在一套平台上进行处理,使其既能做大数据也可以做AI的分析。
1.挑战:
(1)真实的人工智能场景依赖大数据平台提供数据供给,进行数据预处理。如何在企业统一的数据资产及安全体系之上,同时开展BI分析和AI分析充分挖掘数据价值,不因计算而移动数据,避免数据孤岛和资源浪费
(2)如何屏蔽异构的计算资源(CPU/GPU)的复杂性,对外提供简单
易用的界面
2.应对:大数据与人工智能融合的分析平台(MaxCompute+PAI)
MaxCompute和PAI是天然的一体化集成平台,同时基于Python生态的学习能力能够很好的处理保存在MaxCompute上的企业数据仓库数据,然后进行相关的数据分析。PAI在之后的专题进行讲解。
(1)MaxCompute资源管理统一对异构资源(支持CPU、GPU计算资源)进行管理,屏蔽异构的计算资源(CPU/GPU)的复杂性;
(2)MaxComptue提供统一数据存储、统一权限体系下、统一计算引擎,支持对数据开展包括离线处理、交互式分析、机器学习/深度学习在内的分析;
(3)机器学习平台PAI ( Platform of Artificial Intelligence ) ,为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务,极大降低了AI创新的成本和门槛。
3.智能数据应用
4.通过算法挖掘数据价值
5.融合统一的大数据与AI分析平台
十八、高性能/低成本的技术底座
MaxCompute的产品价值第三个主题,
1.MaxCompute是个高性能/低成本的技术底座:MaxCompute带来了财务支出的灵活性和业务敏捷性,真实TCO低至Hadoop自建1/3。
(1)减少前期投入,快速验证价值
开篇曾说过数据平台的发展从单机分布式,Hadoop平台以及云上的存储计算分离servless架构都是在解决性能,成本和效能这三大关键点,第一,而当数据规模越来越大时,这种成本影响因素会越来越重,而和Hadoop的自建相比MaxCompute按量付费的模式它的产品属于OpEX模式不需要采购机器,省去了大量的前期成本。第二,MaxCompute本身是免运维的系统,用户在使用时在运维管理扩容相关的管理成本是不需要的。总体这两特点极大减少了平台的前期投入,可以将其将精力放在验证价值应用上。
(2)高性能、低成本的大数据分析服务
同时MaxCompute已参加三年的大数据标准测试集,在30TB和100TB都拿到过很好的成绩,简而言之,相比hadoop自建平台的性能快一倍,成本低一半,这是被TBC组织官方认可的性能表现。
(数据来源:软硬件配置、成本、性能数据来自tpc.org官网的信息发布)
”性能快1倍,成本低1半”VS Hadoop
*连续3年TPCx-BB全球最佳。
更符合现代数据分析负载需求
*TPCx-BB: TPC组织官方发布的面向大数据分析的测试标准,在结构化数据分析基础上,增加了半结构化和非结构化数据的测试,同时在数据仓库负载基础上增加了机器学习用例的测试,更符合大数据实际的分析场景。
(3)最小化运维管理投入,真是TCO低至1/3
因而既有技术平台的投入,又有大量人为运维成本投入,结合具体的数据,可知相比Hadoop自建,MaxCompute可节省1/3的成本。
2.新技术的投资不止于离线数仓/ETL有极强的算力支持超大规模的复杂计算,同时MaxCompute面向BI/Ad-hoc场景集成分析高性能服务,也支持弹性并发加速的能力
(1)SSB测试集和TPC-DS测试集
通过线上测试和客户反馈,得到以下数据。SSB和Presto对比而言,在不同数据集中MaxCompute都有更好的表现,所以拥有MaxCompute的弹性并发加速的能力后,MaxCompute即可满足Hadoop自建数仓的场景,也能解决Presto这种报表机器查询的需求,在同一份数据和技术资源池上。
以上就是所有弹性,架构的相关。