开发者学堂课程【SaaS 模式云数据仓库实战:MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/332/detail/3721
MaxCompute 持续定义 Saas 模式云数据仓库
——云数据仓库+ BI
课题引入:
探讨 saas 模式下云数据仓库和商业智能 vi 中的新内容。
内容介绍:
一、云数据仓库概述
二、BI 使用场景与趋势
三、基于 MaxCompute 云数仓+ BI
四、实践案例
一、云数据仓库概述
数据市场趋势的举例:
预测到2025年,全球数据增长至175ZB,中国数据增长至48.6ZB。
预测到2023年中国 BI 软件市场年复合增长率为23%
019年第四季度中国云计算市场增长率为66.9%
在该市场前提下,观测云数据仓库的几大特点:
①大规模数据分析
②高性能
③灵活扩容
④低成本
数据的海量增长,云数据仓库需支持大规模的数据分析,同时在大规模的基础上满足高性能,还要灵活扩容,即目前的自建 ID 式的数据仓库,需要规划机器怎样运行,云数据仓库比较灵活,具有扩展性。其成本低,云端处理屏蔽底层以及低端的一些信息,处理主要信息成本自然低。总言之,云数据仓库可以让企业在短时间内创建并开始使用数据仓库服务,在更低的成本下,专注于业务,通过对大数据规模进行多样化的处理、挖掘、分析,快速获得业务洞察。
由前面数据市场趋势举例可知一个现象即:世界各地的企业均是利用并从数据中获取业务价值,随着企业数据量的扩大,市场随之变化快速发展,该前提下企业需要灵活、快速、安全应用的数据产品解决方案,从而快速对海量数据进行挖掘、分析,最大化的释放数据的潜力。
二、BI 使用场景与趋势
随着社会发展和数据量的爆发,数据出现新的发现途径:物联网、 IOT 等提供了大量数据。企业积累大量数据的前提下,所造就的企业期望是可以产生能够快速挖掘优良的数据对企业科学化决策的助力,同时商业智能 BI 也可助力企业,使用精细化运营或客户关系维护以及成本控制等等。
具体流程如下:
1.BI 场景概述:
商业智能 (BI,Business Intelligence) 是一种以提供决策分析性的运营数据为目的而建立的信息系统。
2.商业 BI 建立信息系统主要流程为:
首先进行数据接入(即将分散于企业内、外部各种数据集成整合)因为企业可能有线上、线下以及各种不同的关系数据处、半结构化、非结构化的各种数据来源,需要将这些数据整合,然后进行数据准备(是 ETL 阶段:数据抽取、转化、加载),即为数据仓内大数据的开发,数据的抽取、转化、加载再进行分析展现阶段。
将这些结果呈交给决策层,决策层通过这些数据进行经济化运营、客户化维护关系、成本运营控制得到助力,总言之, BI 将成为大数据时代企业提高竞争力的武器。
3.BI 现状和趋势:
数据量的大爆涨,业务的快速增长,变化快,需要多种多样的各种分析需求以及及时查询,同时在大量数据基础互联网发展快速,很多企业信息获取通过网上或者其他途径直接获取,安全性和合规性受到重视,需要快速整合多系统数据,实现信息透明,以及构建统一的、简单易用的可视化分析平台,从而提高制表效率。这是商业智能 vi 系统的趋势。
三、基于 MaxCompute 云数仓+ BI
1.基于 MaxCompute 云数仓+ BI 的特性
MaxCompute是一项大数据计算服务,它能提供灵活快速、完全托管、高性能、低成本、安全的 PB 级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
注意流程,首先是一个数据源(云上应用数据还是原有数据中心有可能是自建的或是分散到其他业务系统的数据中)通过数据集成的方式存储到 MaxCompute ,MaxCompute 基本架构为底层底层集群为其本身搭建完毕的以及上层多重计算引擎和引擎之上提供各种服务的 API ,深度集成一站式大数据智能云研发平台 DataWorks 。在云数据仓库体系下,进行数据准备即清洗、加工、分析, MaxCompute 数据消费阶段。
总结 MaxCompute 云数据仓的特性:开箱即用,在线服务(免平台运维,总体拥有成本低)底层集群由 MaxCompute 搭建完毕,用户开通即可使用,无需关注底层运维,释放人员更加关注业务运维,降低整体成本。
极致弹性能力(弹性扩展,无需容量规划即可应对业务规模的快速变化)不需提前评估业务所需计算资源,直接可以使用可以随着业务快速的变化按需极致弹性的扩展,即计算资源按需自动的弹性极致;简单易用,多功能计算服务(多种计算模型,多种数据通道,外部数据源联邦计算) MaxCompute 支持 Batch、MapReduce、MachineLearning、spark、查询加速,支持多种计算引擎可以满足多重计算要求,多数据通道保存 MaxCompute 中离线的和实时的数据;企业级安全能力(多租户安全保证机制,细粒度授权,数据加密、脱敏,备份恢复)跨地域的数据云端备份,手机日志等完善的数据管理机制;生态融合(支持多样数据源、生态工具和标准)提供各种 API、CDBC, 支持多样数据源,生态工具和标准。
2. 基于 MaxCompute 云数仓及 BI 对接
MaxCompute 主要是进行存储和计算服务加上数据开发平台 DataWork 组成离线的云数据仓库,在此基础上深度集成 MaxCompute 之上,阿里云 Quick BI 报表工具,可以直接连接的一个 MaxCompute 的数据表,进行分析,还可以通过阿里云的另一个产品 Hologres ,通过该产品进行加速后无缝对接阿里云的 Quick BI ,第三方工具帆软、 Tableau,同时在生态方面的 JDBC 支持直接使用 Tableau 工具,企业或者客户对商业智能化方面会有多样化,个性化需求,对接工具不支持的情况可选择 SDK 方式连接到 MaxCompute 从而实现基于 MaxCompute 云数据仓库对接的商业智能的信息平台。
3. 基于 MaxCompute 交互式分析 (Hologres)+BI
离线数仓的高性能低延迟的分析查询:
交互式分析 Hologres 可以直接读取离线数仓 MaxCompute ,Hologres 支持多样化查询分析包括简单查询,复杂查询,点查询,联邦查询,联邦分析等等, Hologres 也有多种数据源,通过 MaxCompute+Hologres 组成 MaxCompute 交互式分析大数据生态下可以无缝对接Quick BI 、+ableau、帆软,同时因为 Hologres 兼容 house ground circle容易上手,通过该组合快速实现企业信息平台。
四、基于 MaxCompute 元数据仓库 +BI 实践案例
案例一:新零售案例
需求背景
用户基于 Hadoop 开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。
线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。
由图可知,从线下的 IDC 数据源通过 MaxCompute 的迁移工具将全量数据上云,数据集成的工具将增量数据上云,之后通过 DataWorks+
MaxCompute 大数据解决方案对数据进行开发,即数据准备阶段,直接使用 QBI 产品对数据进行处理分析,通过该方案进行数字化转型,无论是线上或线下营销,还是企业内部的客户管理,数据化运营,以及交易、营销、会员、库存、商品等企业内部涵盖的管理,实现资产业务化的闭环。
客户价值:
基于飞天大数据平台产品 MaxCompute +DataWorks 大大提高了数据业务的开发效率,构建企业独有的数据中台体系。
案例二:新金融案例
需求背景:
金融业务数据,对安全管控有极高的需求,需要一个完整的安全管理体系,同时要满足个性化安全需求。
业务快速发展,需要能快速搭建、低成本、秒级扩展的数据中台体系。
MaxCompute 中存在按区使用的方式,无需用户提前购买硬件等,用户使用多少在集群中获取多少。基于 MaxCompute 的数据仓库基本架构同样是数据云的中一个上云,若其本身存在一部分数据在云上,接入之后,还通过 MaxCompute 中 SDK 方式去搭建自己的数据消费应用,例如:数据 API,数据分发,推送等个性化需求。最终缩短需求所用的时间,同时满足其需要完整的安全管理体系。
客户价值:
基于 MaxCompute 开箱即用的应用满足其在安全审计过程中的数据安全需求,缩短了需求响应时间并满足其在数据安全上的个性化需求。