MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI

开发者学堂课程【SaaS 模式云数据仓库实战MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/760/detail/13341


MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI

 

内容介绍

一、 云数据仓库概述

二、 BI 使用场景与趋势

三、 基于 Max compute 云数仓+BI 的特性

四、 实践案例


云数据仓库概述

数据市场趋势

图片1.png

预测到2025年数据量会达到全球数据增长至会到175ZB,中国数据增长会达到48.6zb,数据来自于美国际数据公司IDC和数据传统公司细节一份报告。总的来说,数据量暴涨。在数据量暴涨的前提下,数据来自于数据公司的报告,预测到2023年,中国 BI 软件市场年复合增长率为32%。因为数据量暴涨及BI市场规模持续增长。云计算市场也同样在增长,增长率为66.9%。

云数据仓库几大特点

图片2.png

在该背景下,云数据仓库可以让企业几分钟内创建并开始使用数据仓库服务,在更低的成本下专注业务。通过对大规模数据进行多样化的处理挖掘分析,快速获得业务洞察。云数据仓库的特点如下:

支持大规模数据分析,同时在大规模数据基础上还支持高性能,同时灵活扩容。目前有很多自建ID,数据仓库扩容时,规划机器数量。云数据仓库有较为突出的特点,就是扩展性灵活低成本,在云上会屏蔽掉许多底层的东西,降低成本。仓库可以让企业几分钟内创建并开始使用数据仓库服务,在低成本下专注于业务。通过对大数据规模进行多样化处理挖掘分析,快速获得业务洞察。在数据量暴涨,BI市场持续增长的前提下,世界各地企业都在利用并从数据中利获取业务价值。随着企业数据量积累越来越大,市场快速变化和发展,在此前提下,企业需要灵活快速且安全的数据产品解决方案,从而快速对海量数据进行挖掘分析,最大化释放数据潜力。

 

二、BI 使用场景与趋势

随着社会发展以及数据量爆发,数据也有新的发现途径,例如物联网IOT,提供了大量的数据,在企业积累了大量数据之下,就会希望有较好的快速能从数据中挖掘出数据的工具,企业能够到科学和数据化的决策。同时,商业智能BI处理企业用到精细化运营或客户维护和成本控制等。以下是建立信息系统的主要流程:

图片3.png

首先需要数据接入,将分散于企业内外的各种数据进行集成和整合。因为企业有线上和线下及不同的关系型数据,或者是半结构化非结构化的各种数据来源,需要将这些数据进行集成整合,在进入到数据准备阶段,数据准备阶段是ET2阶段,也就是大数据开发。该阶段进行抽取转化和加载,在进行到分析阶段。分析展现阶段之后,会将成果提交给决策层,决策层通过数据进行经济化运营或客户维护关系或控制成本,能够从中获得助力。BI将会成为大数据时代企业提高竞争力的有力武器。随着数据量大暴涨,业务迅速增长,变化迅速,需要多种分析需求,不仅是分析多样,还需要实时。例如秒级查询。同时在大量数据数据基础上,互联网发展迅速,许多企业的数据通过网络能够获取到,所以数据安全合规也越来越受到重视,所以需要快速整合多系统数据,从而实现信息透明以及构建统一简单应用分析平台,提高制表率已经成为商业智能VI的新趋势。

 

三、基于 Max compute 云数仓+BI 的特性

1.阿里云云数仓+BI 特性

在这种场景和趋势前提下。阿里云云数仓+BI的特性如下:

MaxCompute (原ODPS)是一项大数据计算服务,它能提供灵活快速、完全托管、高性能、低成本、安全的PB级数据仓库解决方案,可以经济并高效的分析处理海量数据。总体数据流程如下:

图片4.png

首先是数据源,不管是云上应用还是原有数据中心,可能是自建或者分散在其他业务系统数据里面,通过集成方式统一的集成存储到Max compute中, Max compute基本架构就是一个底层集群,是Max compute产品,本身已经搭建好的,用户无需感知。上层有多种计算引擎,引擎之上提供各种API,深度集成了一站式大数据云智能开发平台Date works,数据可以做数据准备,进行清洗加工分析后,数据进行到消费阶段。 Max compute云数仓的特性如下:

1开箱即用,在线服务

免平台运维,总体拥有成本低。开箱即用。所有的集群已由Max compute搭建好,用户进来之后开通即可使用,无需关注底层运维。免去了底层平台运维,释放技术人员,可以更加关注于业务运维,总体拥有成本就会会更低。

2极致弹性能力

弹性扩展,无需容量规划,即可应对业务规模的快速变化。极致弹性能力,在已经搭建好集群之上,用户开通之后,可以无需规划容量。对于业务不需要先评估用多少计算资源直接开始使用,可以随着业务的快速变化,按需极致弹性扩展。

3简单易用多功能计算服务

多种计算模型多种数据通道外部数据源联邦计算。Max compute支持SQL, Map reduce,machine Learning,graph spark,查询加速,支持多种计算引擎之上,可以满足不同的需求分析,同时还有多数据通道,数据进入Max computer中,有离线的,也有实时的,支持外部联邦计算。

4企业级安全能力

多租户安全保障机制细粒度授权数据加密,脱敏备份恢复。支持记录系力度授权,最近推出数据加密和数据托名、持续数据备份、跨地域融灾备份、实施审计日记等数据安全管理机制。

5生态融合

支持多样数据源生态工具和标准。生态融合不仅支持多样数据源,同时提供各种API、jdbc,支持很多生态工具和标准。

2.对接情况

在Max compute云数仓的基础上和BI工具对接情况如下:

图片5.png

Max compute主要是存储和计算服务加上数据开发平台data Work,组成了离线的云数据仓库,深度集成了阿里云的QBI(报表工具)。深度集成在Max compute之上,可以直接连接Max compute数据表,就可以直接对表进行分析,还可以通过阿里云的hologres产品,通过该产品进行加速之后无缝对接了阿里云BI和其他阿里云第三方工具。在生态方面同样支持直接使用table工具。企业客户对商业智能多样化的需求,现有的工具可能不支持,也可以通过SDK的方式来连接Max compute,从而实现基于Max compute为云数据仓库对接的商业智能信息的平台。 Max compute离线舱实现高性能低延迟的分析查询流程如下:

图片6.png

Hologress可以直接读取离线数仓,Hologres是一个支持多样化数据查询分析的平台,包括简单的查询和复杂的查询、点查询、联邦查询等,有丰富的数据源,通过Max compute加Hologres组成Max compute交互式分析。大数据生态下,可以无缝对接QBI和table,同时因为Hologres兼有post Grimm Circle,可以很快上手。通过这样的组合,能够快速实现企业的信息平台。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9月前
|
存储 数据采集 大数据
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
|
SQL 存储 分布式计算
关于数据仓库的Hive的安装部署的Local模式
在数据分析和数据挖掘领域,数据仓库是一个非常重要的工具。Hive是阿里云提供的一个开源数据仓库解决方案,它基于Hadoop和HiveQL语言,可以帮助用户轻松地处理大规模数据。在本文中,我们将探讨Hive的安装部署以及Local模式的概念和优势。
156 2
|
SQL 存储 分布式计算
关于数据仓库的Hive的安装部署的内嵌模式
在数据分析和数据挖掘领域,数据仓库是一个非常重要的工具。Hive是阿里云提供的一个开源数据仓库解决方案,它基于Hadoop和HiveQL语言,可以帮助用户轻松地处理大规模数据。在本文中,我们将探讨Hive的安装部署以及内嵌模式的概念和优势。
219 2
|
SQL 存储 分布式计算
关于数据仓库的Hive的安装部署的远程模式
在数据分析和数据挖掘领域,数据仓库是一个非常重要的工具。Hive是阿里云提供的一个开源数据仓库解决方案,它基于Hadoop和HiveQL语言,可以帮助用户轻松地处理大规模数据。在本文中,我们将探讨Hive的安装部署以及远程模式的概念和优势。
205 1
|
SQL Oracle 算法
「数据仓库架构」数据仓库的三种模式建模技术
「数据仓库架构」数据仓库的三种模式建模技术
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6天前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
19 1
|
13天前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
14天前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。

热门文章

最新文章