开发者学堂课程【SaaS 模式云数据仓库实战:飞天大数据产品价值解读— SaaS模式云数据仓库 MaxCompute】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/760/detail/13341
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
内容介绍:
一、企业数字化转型面临的挑战
二、解决问题的措施
三、飞天大数据平台解决方案
四、MaxCompute : SaaS 模式企业级云数据仓库
五、MaxCompute 产品技术特性
六、MaxCompute 的产品价值
七、Serverless 架构的数据仓库事业界发展趋势,是解决扩展性和弹性的最佳方案
八、MaxCompute 是 Serverless 的云原生数据仓库服务
九、Serverless 意味着更敏捷的业务响应和快速试错、创新-从开通到第一个查询
十、Serverless 意味着简单、强大计算能力,无需容量规划匹配业务快速变化的需求
十一、Serverless 意味着更灵活的资源解决方案,兼顾成本与性能的需要
十二、MaxCompute 是天然的多租户系统
十三、多租户体系下企业级可信赖的数据管理平台
十四、MaxCompute 是面向分析的统一数据平台
十五、统一分析平台:MaxCompute 面向 BI/Ad-hoc 场景高性能查询 demo
十六、统一分析平台:现代化的数据仓库+数据湖解决方案
十七、统一分析平台-AI 集成的一体化数据平台
十八、高性能/低成本的技术底座
十九、开发生态的数据平台
二十、企业级可治理的数据管理平台
二十一、企业级可治理的数据管理平台-计算/存储资源智能优化
二十二、基于 MaxCompute 的解决方案及案例介绍
二十三、云上大数据仓库解决方案
二十四、MaxCompute 产品规格介绍
二十五、总结
一、企业数字化转型面临的挑战
首先引入一个问题:在现在企业向数字化产品转型时面临了许多挑战,根据以往与不同客户的沟通情况而言,主要面临以下几类问题,企业为了使用数据驱动业务发展,在建设和运营企业数据仓库时面临的问题:
1. “数据孤岛”尚未打通
企业在过往的数据中以应用为导向,即为了快速的满足业务需求,使其缺少规划而形成了许多“数据孤岛”,由此导致在许多数据平台中满足不同业务部门的需求,建立了专有的数据平台,而这些数据平台在进一步发展时就会面临数据孤岛的问题。导致企业间的数据共享成本和分析十分困难。
l 部门间/业务间数据孤岛,数据共享成本高,缺乏企业级统一的数据获取出口
l 难于自助分析,数据消费方获取数据困难,严重依赖IT部门支持来满足企业更广泛的数据需求
2. 面向业务变化的敏捷创新能力
当数据变成企业的一种核心能力之后,IT企业更多的面临着要解决业务敏捷的创新问题,对于传统的数据业务平台而言,怎样能够面向新的数据更多智能化的需求,以及提供数据开发和产品建设的能力,怎样能够能满足企业内不同的业务团队对于数据产品使用和分析的要求满足他们的使用体验,同时其中十分重要的点是,在现代化的数据平台中开发效率往往是敏捷创新的一个阻碍因素。从数据产品的规划到产品开发往往横跨数月的时间。
l 面向数据智能的研发能力,面向用户体验的场景创新能力,都对IT系统提出更高要求
l 开发效率成为敏捷创新的阻碍因素
3. 平台架构复杂、运营成本高
还有一大痛点即通过自建的方式拥有了一个平台很强的掌控能力,但在运营过程当中往往存在IDC自建中资源成本、管理成本和运维成本过高的问题,同时IT人才在大数据也是极为热门的方向,所以IT人才成本高,以及自运营的成本困难也是十分高,需要许多资深的数据人才进行运维保障。同时企业自建时往往存在一些问题,是按照业务的需求做资源规划,常存在资源利用率不高的情况。但是当购物节计算激增的情况资源又不够,这也常是自建平台的问题所在。
l IDC管理和运维成本过高
l IT人才成本高,纯自运营难
l 资源利用率不高,存在较多浪费
4. 平台安全问题有待解决
同时自建平台常常基于开源的组件集成,存在于系统管理安全,数据安全和合规方面的一些安全方面问题隐患。
l 系统安全
l 数据安全
l 合规
二、解决问题的措施
如何解决以上问题,现代化的数据平台其实受到了两个因素的驱动,第一是云计算的兴起,云计算是提供按需使用的一种能力,而目前大数据平台则在从Saas的方向研进,以此提供按需分配的技术需求。第二个方向,传统的数据平台,就使用场景来看,传统的ETL数据仓库不能满足现代化的数据需求,更多是需要建设时事化的数仓,需要建设数据湖的集成能力能够对非集成数据进行简单的低成本的分析。同时还要在同一份数据上通过AI的能力去挖掘更深的价值,这都是现代化平台需要引进和发展的方向。同时由于新的变革带来了新的能力,有可能解决刚才提高的数据平台的痛点问题。
1. 数据规模持续增长 (lIoT、AI驱动)
=》计算力成本需要持续降低
2. 成为企业的核心依赖
=》可靠性、安全性、稳定性
=》企业级功能支持(账号系统、权限管理体系)
3.基于云+云原生
=》High Scalability
=》Lower TCO
4.一份数据,B与AI集成
=》Support Structured and Unstructured Data
=》Support Al work load natively
5. 快速获得价值实现和深度洞察(Time-to-Value/Insight from Data)
=》数据中台Data Middle office
=》自动化数仓Auto Data warehouse
三.飞天大数据平台解决方案
在引入MaxCompute产品之前,首先了解一下飞天大数据平台的解决方案,它是一个多产品的解决方案,并非单个产品能够解决的方案,所以大数据场景下需要多种产品进行组合然后构建多种多样的产品应用,而阿里云实际上提供的是飞天大数据的产品家族来满足大数据场景经常运用到的数据仓库、智能推荐、日志分析和业务的营运分析,以及用户画像和清晰化的营销等等场景,而在阿里云飞天大数据的解决方案当中MaxComputer作为期间的数据仓库产品是一个非常核心的角色。
1.方案说明∶
适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景。
2.方案优势:
阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;
3.涉及产品:
日志服务SLS、数据传输DTS、DataHub、实时计算Flink、交互式分析、云数仓MaxCompute、数据治理DataWorks、Quick Bl 报表、DataV大屏、ES搜索、机器学习PAI
四、MaxCompute : SaaS 模式企业级云数据仓库
MaxCompute作为阿里云的一个核心组件,目前对其的定位是Saas级的一个云数据仓库,它的典型特点为:MaxCompute这个服务是托管在阿里云上的,而在阿里云上会构建一个超大规模的资源池,然后由阿里云去管理,维护和部署。对外则提供API的接口,当用户使用时只需要通过不同的用户端来连接API的方式来访问使用。第一,MaxCompute是完全托管的服务,所以免去了开通和资源的创建的过程,开箱即用。第二,它有一个超大的资源池在后台因而可以提供按量按需使用,因而具有高弹性的特点。第三,它是存储分离的架构,我们提供的结构化存储,以及按需使用的计算资源,以此在低成本的基础上最大程度的提升了数据平台的扩展性。
1. 应用场景
n 广告场景-用户标签计算、分析业务运营场景-业务指标计算、查询各行业搭建数据仓库
n 云上弹性扩展大数据计算和存储
2.产品优势
n 云原生极致弹性︰云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求
n 简单易用多功能计算∶预置多种计算模型和数据通道能力,开通即用企业级平台服务∶支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成
n 安全∶多租户环境下安全控制能力强
n 大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证
3.推荐组合
n BI分析场景-MaxCompute+Hologres+Flink+DataWorks+Quick BI
n 机器学习场景-MaxCompute+PAI+DataWorks
MaxCompute其实在这样服务化的涉及框架之下,被广泛的应用在以下场景。第一,广告场景在面向toc用户营销,是数据分析常见的场景,经常需要对用户行为分析、划项和打标签之后在根据各种用户的行为来提供各种服务,同时还经常运用各种线上的运营服务,实时的收集到线上营运的情况,根据线上营运的情况去做针对性的策略改变同时越来越多的平台需要数据的底座,之后再在同一个底座上去构建更多的应用,以上就是MaxCompute的产品的概要介绍。
五、MaxCompute 产品技术特性
以下是MaxCompute产品的技术特性,在介绍产品价值之前先介绍其技术特性,由这些技术特性可以引申出一些不同的产品价值。
1. 全托管的 Serverless 的在线服务
MaxCompute首先是一个全托管的Serverless的在线服务,是一个在线的服务,在之前提到过MaxCompute是Saas模式,是语音上的在线服务,也意味着不需要做资源的开通,以及管理,因而说明拥有了一个无限的计算资源存储的资源,同时也免去了许多运维管理的工作,由阿里云去做版本升级,资源管理和伸缩,以及资源处理,最小化客户运维的投入。
l 对外以API方式访问的在线服务,开箱即用
l 预铺设的大规模集群资源,近乎无限资源,按需使用和付费
l 无需平台运维,最小化运维投入
2. 弹性能力与扩展性
其次,在云上能够提供最大、最好的扩展性的弹力,由于存储和计算分离的特性,使得我们不需要为了存储去扩充运算,MaxCompute是有超大规模的存储扩展能力,可以是以TB级甚至于EB级的数据仓库,在一个平台无缝的扩展。最后Servless的架构使其不用根据业务来做提前的规划,而是根据实时的业务需求,业务的波峰波谷的变化动态的分配资源,实现弹性的自动扩展,即在促销活动的场景下需要极大处理分析需求时Servless架构可以根据计算需求提供不同能力。同时MaxCompute算力也很强,根据规模也能够提供成千上万单作业的能力。而该能力使得在扩展规模到TB、EB级时也能够很好的支持业务的正常运转。
l 存储和计算独立扩展,支持TB->EB数据规模的扩展能力,可以让企业将全部数据资产保存在一个平台上进行联动分析,消除数据孤岛
l Servlerss资源,实时根据业务峰谷变化带来的需求变化分配资源,自动扩展
l 单作业可根据需要秒级获得成千上万Core
3. 数据湖探索分析
MaxCompute还融合了数据湖的探索能力,MaxCompute和阿里云的数据湖(如OSS服务)是一个深度集成的关系,能够通过各种IM、AK的方式通过MaxCompute的外表和Spark直接访问处理OSS的数据,以及非结构化和开放的数据。最后由于通过数据仓库的外表映射,我们在同一套用户访问的接口下,可以做到数据仓库和数据湖的联邦查询。
l 默认集成对数据湖(如OSS服务)的访问分析,处理非结构化或开放格式数据
l 支持外表映射、Spark直接访问方式开展数据湖分析
l 对用户友好:在同一套数据仓库服务下和用户接口下,实现数据湖分析和数据仓库的关联分析
4. 集成 AI 能力
另一方面,企业的数据智能的需求逐渐旺盛,传统的BM分析基于人去做决策,已经不能够满足企业的需求,更多是利用AI的能力,去将智能直接提供到线上的业务系统上去,然后去进行个性化的服务和反作弊以及风控的场景处理,而MaxCompute由于是和PAI是天然的一体化无缝集成的产品解决方案,所以MaxCompute可以提供BI+AI的一体化的产品能力,同时还支持开源的Spark和Pyhton生态的集成学习能力。
l 与PAI无缝集成,提供强大的机器学习处理能力
l 可使用用户熟悉的Spark-MIL.开展智能分析
l 使用Python机器学习三方库
5. 支持流式采集和近实时分析
同时近期实时数仓是近几年较为热门的话题,MaxCompute同样也支持流式数据的写入,同时数据写入后秒级可见,之后能够快速的进行弹性并发的查询,满足常见在线的运营活动实时分析场景的应用。
l 支持流式数据的实时写入(Tunnel)并在数据仓库中开展分析
l 与云上主要流式服务深度集成,轻松接入各种来源流式数据
l 高性能秒级弹性并发查询,满足近实时分析场景
6. 深度集成 Spark 引擎
l 内建Apache Spark引擎,提供完整的Spark功能
l 与MaxCompute计算资源、数据和权限体系深度集成
7.统一而丰富的运算能力
l 离线计算(MR,DAG,SQL,ML,Graph)
l 实时计算(流式,内存计算,迭代计算)
l 涵盖,通用关系型大数据,机器学习,非结构化数据处理,图计算
8. 提供统一的企业数据视图
同时在一份数据,一套权限体积之下我们支持多种的计算引擎和计算模式包括Spark,redis,sql和图计算等等,最后对于数据中态而言,还有一个数据敏锐化的观点,即企业的资源可以被企业中的每个人检索到,能知晓企业中有怎样的数据资产,同时能通过安全合规的权限控制,让每个人轻松的获得企业数据资产,同时在这些数据资产当中进行数据开发,其中一个重要的依赖就是要让数据平台提供一个统一的源数据,这个源数据在传统数仓中是以仓库列表为主,而在新的环境下可以通过映射外表的模式的数据湖打通,与MongDB、Hbase和MySQL这种外部数据源建立统一的数据视图,有了这样统一的源数据之后新的数据平台就不必即将数据任务都加载到数据仓库中,但仍可以对企业所有用户提供统一的企业数据视图。以此满足数据共享和民主的需求。
l 提供租户级别的统一元数据,让企业能够轻松获得完整的企业数据目录
l 对于更广泛的数据源,通过外表建立数据仓库与外部数据源的连接,Connect not Collect
9. 企业级服务
最后MaxCompute不是一个简单的计算引擎,它是一个完整的服务,通过AIP即可访问,所以作为一个托管服务要提供服务的连续性,服务的保障同时后台会自动做各种软件的升级,资源的准备和各种安全的保障。
l SLA保证: 99.9%服务可用性保障·自助运维与自动化运维
l 完善的故障容错〈软件,硬件,网络,人为)
六、MaxCompute 的产品价值
完成以上的技术特性后,开始主题:解读MaxCompute的产品价值,主要从以下几点来阐述:
1. Serverless云原生服务架构的好处,同时怎样解决传统自建数据平台的痛点问题。
2.多租户体系下怎么灵活的提供快速敏捷、安全、可靠的平台底座,为企业数据仓库/中台搭建理想技术平台。
3.统一分析平台一套服务+多种功能,简化企业数据平台架构,加速获取深入的业务洞察。MaxCompute是一个数据仓库,相比于传统的ETL,数据建模这种BI的场景它不同于传统的数据仓库,它内建了多种功能能够满足实时数仓、机械学习多种能力,所以在统一分配平台的体系之下,能够满足多种场景的能力。
4.MaxCompute的高性能、低成本,带来了财务支出的灵活性和业务敏捷性,降低TCO。
5.提供完整生态和最佳实践,可快速构建完整的云上大数据解决方案,可持续治理。
七、Serverless 架构的数据仓库事业界发展趋势
Serverless架构的数据仓库事业界发展趋势,是解决扩展性和弹性的最佳方案。
云原生的架构能够带来的好处,从业界趋势来看,Serverless架构已经成为数据仓库的发展趋势,Serverless天然的按需分配、高扩展性和高弹性是解决数据分析型平台的最佳方案,回到具体产品而言,常见的场景有:在日常的可预期的作业之外,同时还需要外部额外的计算需求,此时的资源不足,而倘若按照固定的能量需求分配而言是存在很大浪费,同时当资源弹性需求上升后又无法满足业务侧的需求,所以对数据平台服务的客户而言,体验感大大降低。而Serverless则很好的解决了这个问题。