开发者学堂课程【SaaS 模式云数据仓库实战:飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(一)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/332/detail/3714
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(一)
内容介绍:
一、企业数字化转型面临的挑战
二、现代化的数据仓库向多功能的服务化演进,技术侧的变革带来了解决问题的可能
三、飞天大数据平台解决方案
四、MaxCompute
五、Serverless
六、统一分析平台—MaxCompute
七、MaxCompute 的价值
八、基于MaxCompute的解决方案和案例介绍
九、MaxCompute 产品规格介绍
十、总结
一、企业数字化转型面临的挑战
企业为了使用数据驱动业务发展,在建设和运营企业数据仓库时面临的问题:
企业级数据平台面临的挑战:
“数据孤岛”尚未打通
·部门间/业务间数据孤岛,数据共享成本高,缺乏企业级统一的数据获取出口
·难于自助分析,数据消费方获取数据困难,严重依赖IT部门支持来满足企业更广泛的数据需求
面向业务变化的敏捷创新能力
·面向数据智能的研发能力,面向用户体验的场景创新能力,都对 IT系统提出更高要求
·开发效率成为敏捷创新的阻碍因素
平台架构复杂、运营成本高
·IDC 管理和运维成本过高
·IT 人才成本高,纯自运营难
·资源利用率不高,存在较多浪费
平台安全问题有待解决
·系统安全
·数据安全
·合规
现在的企业在数字化转型中面临很多的挑战,根据过往跟不同客户沟通的情况来看,主要面临几类问题:
第一类问题企业在过往的数据建设当中以应用为导向,快速的满足业务需求,缺乏业务规划形成很多数据孤岛,在不同数据平台当中满足不同业务部门的需求建立这一些专有的数据平台,这些平台再进一步发展的时候面临数据孤岛的问题,导致企业间的数据共享成本和自助分析非常困难。
第二类问题,当数据变成企业的核心能力的时候, IT平台更多的是解决迎接业务快速变化敏捷的创新能力,对于传统的数据平台来讲怎么能够面向新的数据智能的需求,提供数据开发和数据应用产品建设能力,怎么能满足企业内不同的业务团队对于数据产品使用和数据分析的要求,满足对用户的使用体验,同时其中一个非常重要的点是在现代化数据平台当中开发效率往往成为了敏捷创新的阻碍因素,从数据产品的规划到最终上线横跨数月的时间,还有一个比较常见的痛点是通过自建的方式拥有了很强的平台掌控能力,但是在运营 IDC 自建的环境当中会存在着在资源成本、运营成本过高的问题,同时 IT人才在大数据领域中是非常热的一个方向,IT 人才的成本以及运营方面的成本和困难也是非常高的,需要非常多的资深数据人才进行运营保障,同时企业自建的时候往往存在一些问题是,按照业务需求来做资源规划的时候往往存在资源利用率不高的情况,但当购物节这种有很强的波峰激增需求的时候资源不够的情况,这往往也是自建平台的常见问题,同时自建平台可能基于开源的组件集成存在安全管理、系统安全、数据安全还有合规方面的一些安全性的问题和隐患。
二、现代化的数据仓库向多功能的服务化演进,技术侧的变革带来了解决问题的可能
规模、成本、业务效能始终是数据管理和分析平台的核心问题
1、数据规模持续增长( loT Al 驱动)
=》计算力成本需要持续降低
现代化大数据平台
2、成为企业的核心依赖
=》可靠性、安全性、稳定性
=》企业级功能支持(账号系统、权限管理体系)
3、基于云+云原生
=》High Scalability
=》Lower TCO
4、一份数据,BI 与 AI 集成
=》Support Structured and Unstructured Data
=》Support Al work oad natively
4、快速获得价值实现和深度洞察(Time-to-Value/Insight from Data)
=》数据中台Data MiddleOffice
=》自动化数仓Auto DataWarehouse
现代化的数字平台受两个因素的驱动往一个新的方向演进,主要有量个方向:
第一个是由于云计算的兴起,云计算是提供按需使用的计算能力,目前大数据平台更多的往 SaaS 方向演进,提供按需分配的计算需求。第二个方向是从传统数据平台使用的场景来讲,传统的 ETL 数据仓库不能满足现代化分析的需求,更多的需要建设实施化的数仓,需要建设数据库的集成能力能够对数据进行低成本的分析,同时还要在同一份数据上通过 AI 的能力去挖掘更深的价值,这是现代化平台需要发展和演变的方向。由于新的技术上的变革带来了新的能力,有可能解决数据平台当中常见的一些痛点的问题。
三、飞天大数据平台解决方案
方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景。
方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;
涉及产品:
日志服务 SLS、数据传输 DTS、DataHub、实时计算 Flink,交互式分析、云数仓 MaxCompute 、数据治理DataWorks、Quick BI报表、 DataV 大屏、ES 搜索、机器学习 PAI
首先是一个多产品组合的解决方案,不是一个单产品能够满足各种应用场景的一个方案,所以大数据产品需要产品组合建多种多样的数据应用,阿里云提供了飞天大数据的产品家族来满足大数据场景经常用到的数据仓库,智能推荐,日志分析,业务的运营分析以及用户画像信息化的营销等等场景,在阿里云飞天大数据的解决当中 MaxComp 作为旗舰数据仓库产品是非常核心的角色。
四、MaxCompute
1、MaxCompute :SaaS 模式企业级云数据仓库
应用场景
·广告场景-用户标签计算、分析
·业务运营场景-业务指标计算、查询
·各行业搭建数据仓库
·云上弹性扩展大数据计算和存储
产品优势
·云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求
·简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用
·企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成
·安全:多租户环境下安全控制能力强
·大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证
推荐组合
·BI分析场景
-MaxCompute+Hologres+Flink+DataWorks+Quick BI
·机器学习场景 -MaxCompute+PAI+DataWorks
对 MaxCompute 的定位是 SaaS 模式企业级云数据仓库,首先 SaaS 模式 MaxCompute 服务是托管在阿里云上的,阿里云会构建一个超大规模的资源池,由阿里云去管理、运维、部署,对外提供 API 接口,在用户使用的时候只需要通过不同的客户端 Cancel、API 等模式访问使用。
MaxCompute 有几个典型的特点:
第一是完全托管的服务,免去了开通还有资源创建的过程,开箱即用。
第二是在后台有超大的资源池,能够提供按需使用高弹性的能力。
第三个特点它是一个存储分离的架构,提供这种结构化的存储、提供按需使用的计算资源最大程度上提高数据平台扩展性,在低成本的情况下提供扩展性。
MaxCompute 在服务化设计的框架之下在广泛的几个场景下使用:第一个在广告的场景,用户的营销是数据分析平台常见的场景,经常对用户的行为进行收集分析,对用户进行画像、打标签,根据用户的特点做个性化的服务,线上的运营活动实时收集到线上运营的情况,根据线上运营情况去做针对性的运营策略的改变,同时越来越多的企业需要数据平台的底座,在一个统一的数据底座上构建更多的数据应用。
2、MaxCompute 产品技术特性
全托管的 Serverless 的在线服务
·对外以 API 方式访问的在线服务,开箱即用
·预铺设的大规模集群资源,近乎无限资源,按需使用和付费
·无需平台运维,最小化运维投入
弹性能力与扩展性
·存储和计算独立扩展,支持 TB->EB 数据规模的扩展能力,可以让企业将全部数据资产保存在一个平台上进行联动分析,消除数据孤岛
·Servlerss 资源,实时根据业务峰谷变化带来的需求变化分配资源,自动扩展
·单作业可根据需要秒级获得成千上万 Core
数据湖探索分析
·默认集成对数据湖(如 OSS 服务)的访问分析,处理非结构化或开放格式数据
·支持外表映射、Spark 直接访问方式开展数据湖分析
·对用户友好:在同一套数据合库服务下和用户接口下,实现数据湖分析和数据仓库的关联分析
集成AI能力
·与PAI无缝集成,提供强大的机器学习处理能力
·可使用用户熟悉的 Spark-IL 开展智能分析
·使用 Pvthon 机器学习三方库
支持流式采集和近实时分析
·支持流式数据的实时写入( Tunne1 )并在数据仓库中开展分析
·与云上主要流式服务深度集成,轻松接入各种来源流式数据
·高性能秒级弹性并发查询,满足近实时分析场景
深度集成 Spark 引擎
·内建 Apache Spark 引擎,提供完整的 Spark 功能
·与 MaxCompute 计算资源、数据和权限体系深度集成
统一而丰富的运算能力
·离线计算(MR,DAG,SQL,ML,Graph)
·实时计算(流式,内存计算,选代计算)
· 涵盖,通用关系型大数据,机器学习,非结构化数据处理,图计算
提供统一的企业数据视图
·提供户级别的统一元数据,让企业能够轻松获得完整的企业数据目录
·对于更广泛的数据源,通过外表建立数据仓库与外部数据源的连接,
Connect not Collect
企业级服务
·SLA 保证:99.9%服务可用性保障
·自助运维与自动化运维
·完善的故障容错(软件,硬件,网络,人为)
产品在技术侧有一些特点,在讲产品架构之前先讲一下技术的特性能够提供一些不一样的产品价值。
第一个部分强调过 MaxCompute 是一个全托管的一个 serviceless 服务器的架构是在线的服务, MaxCompute 标题是一个 SaaS 模式的服务,是云上的在线意味着不需要做资源的开通,做资源的管理就拥有一个近乎无限计算和存储的资源,同时也免去了运营管理的工作,由阿里云整体去做版本的升级、资源的伸缩以及各种故障的处理,最小化客户使用运营上的投入。
第二块云上的产品很大的特点是能够提供最大号、最好的扩展性和弹性的能力,由于存储和计算分离的特性,不需要为了存储去扩容计算, MaxCompute 是使用超大规模的存储扩展能力,可以以 TB 级的数据仓库逐步演进到 PB 级甚至到 EB 级,可以在一个平台上无缝的扩展,同时由于 SaaS 架构极大的优势是不需要根据业务提前做规划,根据实时的业务需求、业务的波峰波谷的变化动态的去分配资源实现了弹性的自动扩展,在促销活动时可能有非常大的处理能力的需求, MaxCompute 能够根据计算需求提供相应的计算能力,同时MaxComepute 算力也是非常强的,单个作业根据作业规模可以提供成千上万甚至上万个单作用的处理能力,当数据规模拓展到 PB 级、EB 级的时候 MaxCompute 的服务也能很好的去支持业务正常的运转。
另一块 MaxCompute 融合了数据湖探索能力,首先 MaxCompute 和阿里云的 OSS 深度寄生的关系,能够直接访问通过 IM 以及 AK 的方式能够通过 Mysql 的外表或者 Spark 方式直接去处理 OSS 上的数据以及非格式化开放的数据,同时带来一个很大的好处是由于通过数据仓库外表的映射有可能在同一套用户访问的结构下,同套数据的 Schema 之下能够做到数据仓库和数据湖的联邦查询。
还有一个能力是现在企业数据智能的需求越来越旺盛,传统的 BI 的分析基于人气做决策已经不能满足非常多企业的需求,更多的是利用 AI 的能力把智能直接提供到线上业务系统上去,然后去做个性化的服务,去做反作弊、风控等等场景,由于 Mysql 和 PAI 是天然的一体化无缝集成的产品,所以 MaxCompute 能够提供 BI 加 AI 一体化的产品能力,同时也支持开源 Spark 以及 python 机器学习的能力。
技术上的特点是实时数仓是近几年非常热门的一个话题, MaxCompute 也是支持流式数据的实时写入,数据写入之后秒即可见,然后能够快速的进行弹性并发查询,满足常见的在线的运营活动准实时分析的场景。
另外一个是很大的特点是在一份数据一套全建体制之下,支持多种的计算引擎和计算模式,包括 Spark ,MAP Growth,Circle 和图计算等等。
还有一个点对于目前大家比较流行的数据中台,在这个方案底下有一个数据民主化的需求。这个点是企业的数据资产能够被企业的每一个人检索到,能够知道企业有什么样的数据资产,同时通过安全合规的权限控制,能让每一个人轻松的获得企业的数据资产,在这些数据资产进行数据开发,里边有一个很重要的基础上的依赖是需要数据平台提供一个统一的源数据,在传统收藏里边模式是以数据仓库的内表的元素,MK 源数据为主,在新的环境下能够通过映射外表的方式跟数据湖打通,也能够用外表的方式和 MongoDB、HBase、mysql 等等外部数据源建立统一的数据视图,有了统一的源数据的能力之后,新的数据平台可以做到不把所有的数据漏都加载到数据仓库当中,仍然能够对企业的所有用户提供一个统一的数据视图,能满足数据共享和民主的需求。
另外一个点是 MaxCompute 不是一个简单的计算引擎,是一个完整的服务,通过 AIP 就可以访问,所以作为托管服务提供服务的连续性 So 的保障,同时后台自动会做软件的升级,资源的准备,各种安全的保障。
3、MaxCompute 的产品价值
Serverless 云原生服务,解决传统自建数据平台的痛点问题
多租户体系下安全、可靠的平台底座,企业数据仓库/中台理想技术
平台
统一分析平台,一套服务+多种功能,简化企业数据平台架构,加速获取深入的业务洞察
高性能、低成本,带来了财务支出的灵活性和业务敏捷性,降低 TCO
提供完整生态和最佳实践,可快速构建完整的云上大数据解决方案,
可持续治理
从5个点阐述 MaxCompute 产品价值:
第一个是 Serverless 云原生架构,带来的好处怎么样去解除传统数据自建平台碰到的一些痛点的问题。
第二个是由于多租户体系怎么灵活的提供快速敏捷的平台统一的源数据的能力,为企业的数据中台做理想的技术底座。
第三个是 MaxCompute 是一个数据仓库,过往的对数据仓库的理解更多是传统的数据仓库 EPL 数据建模以及 BI 的场景, MaxCompute 不止于传统的数据仓库,內建了多种功能能够满足实时数仓学习、 BI 分析等等多种场景的能力,在统一分析平台体系之下能够满足多种场景的能力。
第四部分介绍 MaxCompute 这样一个技术型产品,大家非常关心的是它的性能、成本,性能成本往往为企业提升敏捷性和灵活性,降低企业平台总体的应用成本,
最后一部分 MaxCompute 作为阿里云大数据生态的关键组件,既以 MaxCompute 为核心去快速构建一套完整的大数据解决方案,满足多种的大数据应用场景,同时 MaxCompute 和周边的兄弟产品的集成提供一套可以持续治理的技术能力。
五、Serverless
1、Serverless架构的数据仓库是业界发展趋势,是解决扩展性和弹性的最佳方案
云原生的系统能带来哪些好处,首先可以看到从业界的趋势来看Serverless 已经成为数据分析平台发展的趋势, Serverless 天然的按需分配高拓展性、高弹性的能力是解决数据分析平台一个非常重要的一个最佳的方案,回到具体场景来看的时候常见的资源上的弹性需求有一些场景,比如在日常可预期的作业之外临时有一些额外的计算需求,这时候资源是不够的需要有额外的资源,但是平时的时候没有这些资源,如果按照固定的需求做容量规划的时候就存在很大的浪费,同时当资源弹性需求上来的时候又不能满足业务侧需求,所以对于数据平台服务的客户是一个非常不好的体验,Serverless 能很好的的解决扩展性和弹性的问题。
2、MaxCompute 是 Serverless 的云原生数据仓库服务,能够极大降低创新门槛、加速价值实现
扩展性&弹性
·大规模计算资源预先部署的“在线服务”,用户无需资源开通、无需扩容缩容
· 弹性:作业级别自动伸缩:根据每个作业的不同,秒级自动分配资源大小
·超级算力:MaxCompute根据作业需要可分配超级弹性,MaxCompute 根据作业需要可在秒级为单作业分配数千 Core 并行处理,算力强大
低使用成本
·存储与计算独立伸缩,独立计费,无需为存储扩容资源
·真正的“按使用付费",按量付费模式仅在运行作业时收
费,不为空闲IDLE资源付费;
·配套的费用预警等费用控制手段;
免运维
·无需运维团队对基础设计、软件平台运维,MaxCompute
提供服务级别SLA保障
·无需提前容量规划,根据实际的业务规模自动适配资源
和花费;
·无需进行索引、分布键设置、vacuuming 等调优工作No indexes distribution keys,vacuuming
·后台智能化优化,如小文件自动合并
MaxCompute 是构建在一个超大规模资源池上,使用用户感知不到底下有一个资源池,只是知道在国际上需要做产品的开通还有做项目空间的创建以及数据的建模,在项目空间中去做数据分析,所以它是非常敏捷的一套服务的模式,能够极大的降低使用数据平台中的门槛,能够把原先以月为单位的数据平台过程降低到天级别。
3、Serverless 意味着更敏捷的业务影响和快速试错、创新-从开通到第一个查询
具体例子Demo
Demo 讲的在使用 MaxCompute 的时候,通过阿里云的外部控制台快速的开通 mysql 的服务,快速的创建数据分析的环境,时间在分钟级别。
刚才创建新的 mysql 项目
创建完之后进入 Datawork 数据开发的入口当中去,刚刚创建的大数据分析的项目
快速的写一个 sql ,开始第一次大数据之旅。
由于 mysql 线上提供了一个公共数据集,可以在无需导入数据的前提下;利用公共数据集进行数据的探索、功能的尝鲜使用。
1 --odps sql
2 --************************************************************--
3 --author:曲宁
4 --create time:2020-07-09 17:26:31
5 --*************************************************************--
6 Select * from public_data.ods_enterprise_share_basic whe re ds ='20170114';
公共数据里面有 TB 级别的数据集面向全网的用户是公开开放的,从项目的创建到第一个 sql 的运行花了两分钟的时间
Serverless 是意味着是 SaaS 服务化产品,只需要根据业务的需要快速的去创建开通就可以使用,从开通到第一个 sql 的查询就需要两分钟。
这样一个模式可以看到有两种好处,第一个场景是初创企业能够在一个低成本的环境下快速的把商源通过数据链入把商业逻辑走通,快速验证业务价值,第二个场景在大企业里面有很多创新型的组织和部门需要有一个独立的环境进行一些新应用的开发,MaxCompute 的一些特点能很好地支撑这些敏捷的场景。
4、Serverless意味着简单、强大的计算能力,无需容量规划、匹配业务快速变化的需求
写了一个相对复杂的 sql 的作业,这个作业处理数据规模是非常大,对资源的需求是非常高的,以第一个 Map 的 stage 来看单个作业需要2万个 cpu work思路,MaxCompute Serverless 架构超大资源池能够从非常小的数据集也能够支持超大规模复杂的计算,提供非常强大的算力。
5、Serverless意味着更灵活的资源解决方案,兼顾成本与性能的需要
Serverless 是按需使用 Serverless 本身有自己的一些管理控制层面的特点和问题,在企业数据平台初期创建的时候,由于数据规模不大,费用较小,但是当企业规模达到一定程度的时候,用户多的时候如果都按需使用的话往往带来很大的费用控制上的问题。MaxCompute 洞察到了客户使用当中各种的需求,不只提供按需使用极致弹性的惯例,也提供包年包月的资源规格。
当企业的数据平台比较稳定的时候适合购买包年包月的资源满足日常的需求,同时谈到数据分析场景本质上除了传统的 ETL 作业之外还有大量的临时查询,现代给数据科学家的探索分析的需求,这些场景往往对算力的需求弹性要求是非常高的,同时也不是周期性的,需要一种突发的能力,所以 MaxCompute 提供多种资源规格,根据自己不同的管理需要去选择不同的规格,同时还可以在多个资源池去打通,一部分资源到包年包月上突发的作用可以使用按量付费去获得极致的弹性。
六、统一分析平台—MaxCompute
1、MaxCompute是天然的多租户系统-统一元数据和数据储存,通过权限实现跨业务/组织的数据隔离与共享,是消除数据孤岛、提高数据共享效率的重要技术阶段
1)完整的多租户系统,实现数据、计算资源、计算任务(沙箱)的安全隔离
2)组织内部通过 Proiect 进行数据和计算的隔离(work load isolation),消除业务间的资源争抢
3)提供统一的元数据,企业内各部门/业务的完整数据视图一览无余,提供完整的企业数据资产视图
4)支持跨项目间的数据访问授权,高效、低成本地在企业内共享数据,实现每个个人对企业各项数据资源的受控使用
5)业界最完整的安全管理体系,支持跨项目数据安全管理、细粒度的访问控制、数据加密、隐私数据保护、操作使用行为审计能力
统一的 MaxCompute 服务下不同 region 占有不同的集群,这些集群之上不同的租户开通了自己 MaxCompute 服务,然后每个租户实际上创建了不同的相互隔离的一些开发项目,开发项目之上可能有组织内不同的团队部门来使用它,所以有一个很重要的问题是说在一个多租户的环境下要保障每个租户之间有一个很强的隔离性,同时通过离子权限控制允许组织之内和组之间能够做数据上的共享,传统的数据平台里面一个非常大的一个痛点是数据的扩展性,由于数据是在一个共享的超大的资源池上,所以客户的不同的组织部门可以把企业的各种数据统一存在一个集中的地方,然后通过全线的控制来实现统一的数据资产的视图,同时能够满足不同部门权限的隔离和共享需求。
2、多租户体系下企业级可信赖的数据管理平台-MaxCompute拥有最全面的安全管理机制,提供业绩领先的安全能力
构建全面、多层次的安全管理能力,持续保护云上数据及服务安全
安全事件频发,云上大数据服务如何保障企业数据和服务安全
数据泄露
恶意删库
安全攻击
业务中断
多租户产品带来了一些优势,同时带来更大技术上的挑战,需要更好的进行安全的控制和防护,由于 MaxCompute 在平台创立之期,是一个天然的 Serverless 和多租户的环境,产品本身内置了大量的安全管理机制,安全机制在内部以及领域上更多的客户在使用来保障每个客户安全的能力。
首先托管基础设施的安全由来托管和保障,同时便向我们保证控制数据安全还有重点控制以及多租户的自定义用的隔离安全,做了很多的管理的功能,今天可能更多的讲具体的场景,最近关注比较多的是数据被恶意删除、泄露的一些风险,今天的例子里边主要讲的是提供三项能力。
(1)持续保护企业数据安全:数据加密、实施审计及持续备份恢复
第一部分是对本身提供数据加密的能力,在创建一个新的数据开发空间的时候,可以选择对这个项目进行数据的加密,然后选择默认的密钥或者是自定义密钥,同时也可以选择对应的加密算法,有了这样的能力数据存放在云上达到一个数据存储安全的机构。
由于 MaxCompute 和阿里云的 KMS 的密钥系统做了相关的提成,可以支持自定义密钥,然后去保障数据安全。
(2)持续保护企业数据安全:数据加密、实施审计及持续备份恢复
第二个讲实施审计和数据恶意删除恢复的场景。
这个例子首先讲的是企业里有一张表,这张表被人恶意删除,可以看到这张表被删除之后,不可访问了而且这张数据丢失。
select * fran tbl_dev;
drop table tbl_dev;
show history for tables;
restore table tbl_dev ('id'='4c5672d27bf0438ba9026b61f35f1 fba');
常见的管理工作第一是要看谁做这样的事情,谁把数据删除了, MaxCompute 提供了实时审计的能力,刚做的操作马上通过阿里云的审计日志能够看到这张表被哪个人在什么时间做了什么样的操作动作,然后去做事后的追溯。这是刚才提到这种事件审计的能力。
第二个数据丢失之后重要的数据需要找回 MaxCompute 内建了一个服务级别自动备份的能力,数据删掉之后会被默认保存下来,通过对应管理的命令找到刚才被删除的表通过 restore 命令把已经被恶意删除的数据操作恢复
select
*from t
bl_dev;
drop table tbl_dev;
show history for tables;
restore table tbl_dev ('id'='bef79f3443f947f89faff43eb3ec66
21');
select
*
fron tbl_dev;
MaxCompute 环境之下作为托管行的服务,做了大量的工作在数据可靠性、安全性上。
3、MaxCompute 是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察
现代化的数据平台(Moden data platform)要求企业能够对业务做更实时的相应、处理不断增加的不同类型数据、利用新技术挖掘数据更深入的价值。
MaxCompute 是面相分析的统一数据平台,过去提到数据仓库往往是 ETL 查询能力,是对历史数据进行分析面向人去做决策的支持,现代化的数据平台,需要一个平台,同一份数据能够满足更多的一个分析场景,同一平台之下更大的简化了企业的数据架构,能快速获得更深入的分析洞察,这里面介绍三个部分:
第一个是 MaxCompute 具备更实时的数据洞察能力,过去 MaxCompute 支持离线导入,现在支持实时数据的能力通过 binlog 实时数据的采集或者 datahub 日志服务,日志事件的采集能够实时的获取事件,同时进行实时的处理分析。
第二个场景 MaxCompute 作为数据核心平台现代的很多的数据格式是存在 OSS 上一些日志数据,还有一类数据不适合放到仓库当中,比如 No SQL 数据更适合放在数据库中,这些数据往往需要做一些关联分析,MaxCompute 提供非常强大的联邦查询的能力,能够和数据湖、数据库、No SQL 等等服务打通,实现数据不加载的同一个地方但是逻辑上是一个统一的集中的处理平台。
第三个部分 MaxCompute 和 PAI 是无缝一体化的平台,既提供 BI 的能力,也提供 AI 集成的能力。
(1)统一分析平台:近实时分析-支撑在线运营分析场景
Mysql 实时数据写入、实时分析的场景,演示的是 binlog 日志采集到 mysql 中做实时分析,表是一个实时表
select*from t_streaming_ingestion
Mysql 数据库当中去采集它的 binlog ,mysql 中去实时插一条数据,然后会产生一个 binlog 的日志。
RDS MySQL SH mydb
insert inte rds_dim values(
“
LA
”
)
1
select * from rds_dim;
place
beijing
chengdu
guangzhou
Hangzhou
jinan
LA
nanjing
new yark
shanghai
wuhen
通过 dataworks 实时数据采集能力配置一个实时采集链路,数据源是刚才提到的 mysql 的一张表,目标是 mysql 实时写入的表。
创建一个实时的同步任务,会从 binlog 之中采集日志之后写入 mysql
观察一下日志,插入一条新的数据
由于有了近实时的写入和分析的能力 mysql 从过去的离线数仓能够很好的生成在线的近实时的场景。
(2)统一分析平台:MaxCompute 面向 BI/Ad-hoc 场景高性能查询 demo
一个平台能够支持多种场景,由于 MaxCompute 和 Table 之间有无缝的集成,通过 Table 能够直接访问 MaxCompute 数据。
场景回溯:第一个场景实时数据具备秒级写入的能力,能够在非常短的间隔段获取数据,获取数据之后需要一些面向运营人员去浸湿的分析,通过 BI 的报表能够读取实时数据,线上实时数据和离线数据去做交叉对比分析,这也是常见的线上运营分析的一些需求。第二个能力很多的分析师往往通过写 sql 的方式在一些比较大的明细数据之上去做探索分析,过去使用过 mysql 的用户对机器查询的体验并不是很好,现在支持快速查询的能力,对 BI 查询和机器查询的产品做高性能的支持。