开发者学堂课程【场景实践-基于阿里云 Quick BI 对 MOOC 网站日志分析:阿里云相关产品介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/524/detail/7075
阿里云相关产品介绍
内容介绍:
一、MaxCompute 概述
二、MaxCompute 的应用特点
三、MaxCompute 基本概念
四、MaxCompute 基础架构图
五、大数据开发平台概述
六、阿里云 QuickBI
七、Quick BI 产品优势和价值
上节讲解了网站日志分析一般流程,本节介绍阿里云用于数据分析的几个产品。
一、MaxCompute 概述
大数据计算服务(MaxCompute,原名ODPS )由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的数据仓库解决方案。
1. 是一个分布式架构,进行大数据的数据分析处理必须要使用分布式架构,因为单台机器无法承载大量数据。并且它的扩展性很好,理论上支持超过5000个节点的集群。
2. 简单易用,只需要有SQL经验就可以入手,同时还提供了Java 的 API,Python 的 SDK 等等。
3. 安全可靠。系统上是安全的,数据是分布式的,底层是盘古文件系统一式三问。
4. 管理与授权,保证用户只能访问自己有权限的数据
二、MaxCompute 的应用特点
1. 海量运算触手可得
根据数据规模自动调整集群存储和计算能力,最大化发挥数据的价值
2. 服务“开箱即用”
仅需简单的几步操作,就可以上传数据、分析数据并得到分析结果(不需要手动搭建大数据集群)
3. 数据存储安全可靠
三重备份、读写鉴权、应用沙箱、系统沙箱等多层次安全机制
4. 多用户协作
保障数据安全的前提下最大化工作效率
5. 按量付费
根据实际使用收费,最大化降低数据使用成本(如果购买了大数据产品不使用则不需要付费,真正使用时才会根据具体使用情况进行扣费)
三、MaxCompute 基本概念
1.项目空间 Project
所有对象属于某一个项目空间,一个用户可以有多个项目空间,通过授权多个项目空间可以进行互相访问。可以简单将项目空间看作关系集数据库的一个数据库。
2.表 Table
在MaxCompute中,所有数据都被存放在表中,表中的列可以是 MaxCompute 支持的任意一种数据类型。例如 double、string、布尔值等。MaxCompute 中各种不同类型计算任务的操作对象包括输入输出都是以表的形式进行处理。用户可以创建表、删除表以及向表中导入数据,也可以授权给其它账户来访问。
3.分区 Partition
分区指创建表时所指定的分区空间即指定表内的某个字段作为分区列。在大多数情况下,用户可以将分区比作文件系统下的目录。MaxCompute将分区列的每一个值作为一个分区目录。用户可以指定多级分区,即将表的多个字段作为分区。在使用数据时如果指定了需要访问的分区表名则会读取相应的分区,避免进行全局扫描,从而提高了数据处理,同时也降低了计算费用。
4.任务 Task
是 MaxCompute 的基本计算单元。SQL 和 mapreduce 功能都是通过 Task 来完成。
5.资源 Resource
是MaxCompute特有的一个概念。用户想要使用MaxCompute中自定义的函数mapreduce功能就需要依赖资源来完成。MaxCompute中资源类型包括file文件类型、table表类型、jar编译好的Java的jar包类型、归档类型(压缩包类型,支持的压缩文件包括zip等)。
四、MaxCompute 基础架构图
第1层ODPS客户端即 mapreduce 客户端。可以使用 REST API 形式访问,也可以使用SDK的调用方式,同时还提供了命令行的模式,也可以在开发工具中集成相应的工具。
第2层ODPS接入层,在到达客户端后会进入第二层。该层进行账号权限的鉴定操作。如果账号具有相应的权限可以到达第三层。
第3层ODPS逻辑层。该层有许多worker及调度器和执行器,同时还包含了整个大数据的一些元数据信息。如果需要查询的数据仅仅对元数据库进行操作,那么可以直接返回信息。如果需要进行一些复杂计算,会将相应的任务转发给第4层。
第4层ODPS计算层。该层会使用 MR Job 以及 SQL Job 进行真正计算。
五、大数据开发平台概述
阿里云大数据开发平台( Data IDE)是一套基于 Maxcompute (原ODPS )的DW(数据仓库)解决方案,它集成了阿里多年的DW实施经验,提供数据集成、处理、分析和管理功能,并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。
可以简单认为MaxCompute处于底层的大数据服务平台,而Data IDE是处于它之上的一个开发平台。可以通过开发平台提供的多种接口对底层进行真正操作。
应用版本管理混乱、数据资产缺乏管理、数据安全无法保证、调度部署浪费资源、运维管理很不方便
代码版本管理、统一数据管理、数据安全隔离、工作流调度系统、多人协调设计编码
六、阿里云QuickBI
Quick BI(商务智能、商业智能)提供海量数据实时在线分析服务(只用现代数据仓库技术、线上分析技术、数据挖掘和数据展现技术进行数据分析以实现商业价值),支持拖拽式操作果,可以帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。它不止是业务人员看数据的工具,更是数据化运营的助推器,实现人人都是数据分析师。
支持众多的数据源,既可以连接 Maxcompute、RDS 等阿里云自带的元数据源。同时支持 ECS 上自建 Mysql 数据库、SqlServer 等,同时支持将本地文件上传到内置的探索空间进行分析。
Quick BI 使用成本很低,由于元计算的优势,Quick BI 使企业可以以极低的使用成本拥有一个高效安全稳定的商业智能平台。Quick BI 由于内置了智能查询加速引擎从而实现了对海量数据进行实时在线分析,无需提前大量的数据预处理就可以流畅的进行海量数据分析,极大的提高了分析效率。Quick BI 使用简单,通过提供智能化的数据建模工具极大降低了数据的获取成本和使用门槛,通过支持拖拽式的操作以及丰富的可视化图表可以轻松实现数据的透视分析、自主获取、业务的数据探查、报表的制作和数据门户的搭建等工作。不仅可以使业务人员看到数据的工具,更能让每个人都成为数据分析师帮助企业实现数据化的运营。
七、Quick BI 产品优势和价值
l 无缝集成云上数据库
l 图表(具有丰富的图表,丰富的可视化效果,饼图等可视化图表满足不同场景数据展现需求。同时可以自动识别数据特征智能推荐合适的可视化方案)
l 分析(对数据进行多维的数据分析,基于web页面的工作环境,拖拽式类似于excel 的操作方式一键导入,实时分析。可以灵活切换数据分析的视角而无需重新建模)
l 快速搭建数据门户
l 实时(支持海量数据的在线分析,不需要进行大量的数据预处理,从而大大提高了数据分析效率)
l 安全管控数据权限(内置组织成员管理,支持行级的数据权限。满足不同人看不同报表以及同一份报表不同人看到不同数据的需求)