MaxCompute 持续定义 Saas 模式云数据仓库 ——云数据仓库+ BI | 学习笔记

简介: 快速学习 MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI,介绍了 MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI系统机制, 以及在实际应用过程中如何使用。

发者学堂课程【SaaS 模式云数据仓库实战MaxCompute 持续定义 Saas 模式云数据仓库——云数据仓库+ BI】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/332/detail/3721


MaxCompute 持续定义 Saas 模式云数据仓库

——云数据仓库+ BI

 

课题引入:

探讨 saas 模式下云数据仓库和商业智能 vi 中的新内容。


内容介绍:

一、云数据仓库概述

二、BI 使用场景与趋势

三、基于 MaxCompute 云数仓+ BI

四、实践案例


一、云数据仓库概述

数据市场趋势的举例:

预测到2025年,全球数据增长至175ZB,中国数据增长至48.6ZB。

预测到2023年中国 BI 软件市场年复合增长率为23%

019年第四季度中国云计算市场增长率为66.9%

image.png

在该市场前提下,观测云数据仓库的几大特点:

①大规模数据分析

②高性能

③灵活扩容

④低成本

image.png

数据的海量增长,云数据仓库需支持大规模的数据分析,同时在大规模的基础上满足高性能,还要灵活扩容,即目前的自建 ID 式的数据仓库,需要规划机器怎样运行,云数据仓库比较灵活,具有扩展性。其成本低,云端处理屏蔽底层以及低端的一些信息,处理主要信息成本自然低。总言之,云数据仓库可以让企业在短时间内创建并开始使用数据仓库服务,在更低的成本下,专注于业务,通过对大数据规模进行多样化的处理、挖掘、分析,快速获得业务洞察。

由前面数据市场趋势举例可知一个现象即:世界各地的企业均是利用并从数据中获取业务价值,随着企业数据量的扩大,市场随之变化快速发展,该前提下企业需要灵活、快速、安全应用的数据产品解决方案,从而快速对海量数据进行挖掘、分析,最大化的释放数据的潜力。


二、BI 使用场景与趋势

image.png

随着社会发展和数据量的爆发,数据出现新的发现途径:物联网、 IOT 等提供了大量数据。企业积累大量数据的前提下,所造就的企业期望是可以产生能够快速挖掘优良的数据对企业科学化决策的助力,同时商业智能 BI 也可助力企业,使用精细化运营或客户关系维护以及成本控制等等。

具体流程如下:

1.BI 场景概述:

商业智能 (BI,Business Intelligence) 是一种以提供决策分析性的运营数据为目的而建立的信息系统。

2.商业 BI 建立信息系统主要流程为:

首先进行数据接入(即将分散于企业内、外部各种数据集成整合)因为企业可能有线上、线下以及各种不同的关系数据处、半结构化、非结构化的各种数据来源,需要将这些数据整合,然后进行数据准备(是 ETL 阶段:数据抽取、转化、加载),即为数据仓内大数据的开发,数据的抽取、转化、加载再进行分析展现阶段。

将这些结果呈交给决策层,决策层通过这些数据进行经济化运营、客户化维护关系、成本运营控制得到助力,总言之, BI 将成为大数据时代企业提高竞争力的武器。

 image.png

3.BI 现状和趋势:

数据量的大爆涨,业务的快速增长,变化快,需要多种多样的各种分析需求以及及时查询,同时在大量数据基础互联网发展快速,很多企业信息获取通过网上或者其他途径直接获取,安全性和合规性受到重视,需要快速整合多系统数据,实现信息透明,以及构建统一的、简单易用的可视化分析平台,从而提高制表效率。这是商业智能 vi 系统的趋势。


三、基于 MaxCompute 云数仓+ BI

image.png

1.基于 MaxCompute 云数仓+ BI 的特性

MaxCompute是一项大数据计算服务,它能提供灵活快速、完全托管、高性能、低成本、安全的 PB 级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

注意流程,首先是一个数据源(云上应用数据还是原有数据中心有可能是自建的或是分散到其他业务系统的数据中)通过数据集成的方式存储到 MaxCompute ,MaxCompute 基本架构为底层底层集群为其本身搭建完毕的以及上层多重计算引擎和引擎之上提供各种服务的 API ,深度集成一站式大数据智能云研发平台 DataWorks 。在云数据仓库体系下,进行数据准备即清洗、加工、分析, MaxCompute 数据消费阶段。

image.png

总结 MaxCompute 云数据仓的特性:开箱即用,在线服务(免平台运维,总体拥有成本低)底层集群由 MaxCompute 搭建完毕,用户开通即可使用,无需关注底层运维,释放人员更加关注业务运维,降低整体成本。

极致弹性能力(弹性扩展,无需容量规划即可应对业务规模的快速变化)不需提前评估业务所需计算资源,直接可以使用可以随着业务快速的变化按需极致弹性的扩展,即计算资源按需自动的弹性极致;简单易用,多功能计算服务(多种计算模型,多种数据通道,外部数据源联邦计算) MaxCompute 支持 Batch、MapReduce、MachineLearning、spark、查询加速,支持多种计算引擎可以满足多重计算要求,多数据通道保存 MaxCompute 中离线的和实时的数据;企业级安全能力(多租户安全保证机制,细粒度授权,数据加密、脱敏,备份恢复)跨地域的数据云端备份,手机日志等完善的数据管理机制;生态融合(支持多样数据源、生态工具和标准)提供各种 API、CDBC, 支持多样数据源,生态工具和标准。

2. 基于 MaxCompute 云数仓及 BI 对接

image.png

MaxCompute 主要是进行存储和计算服务加上数据开发平台 DataWork 组成离线的云数据仓库,在此基础上深度集成 MaxCompute 之上,阿里云 Quick BI 报表工具,可以直接连接的一个 MaxCompute 的数据表,进行分析,还可以通过阿里云的另一个产品 Hologres ,通过该产品进行加速后无缝对接阿里云的 Quick BI ,第三方工具帆软、 Tableau,同时在生态方面的 JDBC 支持直接使用 Tableau 工具,企业或者客户对商业智能化方面会有多样化,个性化需求,对接工具不支持的情况可选择 SDK 方式连接到 MaxCompute 从而实现基于 MaxCompute 云数据仓库对接的商业智能的信息平台。

3. 基于 MaxCompute 交互式分析 (Hologres)+BI

image.png

离线数仓的高性能低延迟的分析查询:

交互式分析 Hologres 可以直接读取离线数仓 MaxCompute ,Hologres 支持多样化查询分析包括简单查询,复杂查询,点查询,联邦查询,联邦分析等等, Hologres 也有多种数据源,通过  MaxCompute+Hologres 组成 MaxCompute 交互式分析大数据生态下可以无缝对接Quick BI 、+ableau、帆软,同时因为 Hologres 兼容 house ground circle容易上手,通过该组合快速实现企业信息平台。


四、基于 MaxCompute 元数据仓库 +BI 实践案例

案例一:新零售案例

image.png

需求背景

用户基于 Hadoop 开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

由图可知,从线下的 IDC 数据源通过 MaxCompute 的迁移工具将全量数据上云,数据集成的工具将增量数据上云,之后通过 DataWorks+

MaxCompute 大数据解决方案对数据进行开发,即数据准备阶段,直接使用 QBI 产品对数据进行处理分析,通过该方案进行数字化转型,无论是线上或线下营销,还是企业内部的客户管理,数据化运营,以及交易、营销、会员、库存、商品等企业内部涵盖的管理,实现资产业务化的闭环。

客户价值:

基于飞天大数据平台产品 MaxCompute +DataWorks 大大提高了数据业务的开发效率,构建企业独有的数据中台体系。

案例二:新金融案例

image.png

需求背景:

金融业务数据,对安全管控有极高的需求,需要一个完整的安全管理体系,同时要满足个性化安全需求。

业务快速发展,需要能快速搭建、低成本、秒级扩展的数据中台体系。

MaxCompute 中存在按区使用的方式,无需用户提前购买硬件等,用户使用多少在集群中获取多少。基于 MaxCompute 的数据仓库基本架构同样是数据云的中一个上云,若其本身存在一部分数据在云上,接入之后,还通过 MaxCompute 中 SDK 方式去搭建自己的数据消费应用,例如:数据 API,数据分发,推送等个性化需求。最终缩短需求所用的时间,同时满足其需要完整的安全管理体系。

客户价值:

基于 MaxCompute 开箱即用的应用满足其在安全审计过程中的数据安全需求,缩短了需求响应时间并满足其在数据安全上的个性化需求。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
1586 0
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
265 1
|
7月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
11月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
688 5
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
422 19
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
分布式计算 大数据 BI
ClickHouse与大数据生态整合:从ETL到BI报表
【10月更文挑战第27天】在这个数据驱动的时代,企业越来越依赖于数据来做出关键决策。而高效的数据处理和分析能力则是支撑这一需求的基础。作为一位数据工程师,我有幸参与到一个项目中,该项目旨在利用ClickHouse与Hadoop、Spark、Flink等大数据处理框架的整合,构建一个从数据提取(Extract)、转换(Transform)、加载(Load)到最终生成商业智能(BI)报表的全流程解决方案。以下是我在这个项目中的经验和思考。
718 1
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
833 1

热门文章

最新文章

下一篇
开通oss服务