阿里云数据分析常用工具介绍 | 学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
智能商业分析 Quick BI,专业版 50license 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习阿里云数据分析常用工具介绍。

开发者学堂课程【场景实践-通过阿里云数据分析工具实现共享单车骑行分析阿里云数据分析常用工具介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/527/detail/7096


阿里云数据分析常用工具介绍


内容介绍:

一、分析工具

二、常见图表类型

三、使用场景

四、业务流程

 

一、分析工具

本课程给安排了小实验,实验的环境是基于阿里云平台。所以本章会简单介绍实验中用到的三款数据分析工具。包括大数据计算服 maxcomputer,大数据开发套件    dataworks 以及数据可视化工具quickbi。

1.大数据计算服务

1.png

maxcomputer 是一种快速完全托管了 pb 级数据插播解决方案,它主要服务于批量结构化数据的存储和计算,提供海量数据仓库的解决方案,以及针对大数据的分析建模服务。有两个优点,第一是适合大规模的计算存储,适用于100GB 以上的规模的存储及计算,最大达到 EB 级别。第二个优点是支持多种计算模型,包括 SQLGRAPH 以及迭代的算法等等。

2. dataworks

2.png

大数据开发套件 dataworks 基于 maxcomputer 作为核心的计算存储引擎,它提供的海量数据的离线加工分析、数据挖掘的能力。

dataworks 是阿里云推出的大数据领域 pass 平台,提供了数据集成、开发、管理、治理等多方位服务,支持数据同步 ODPS SQL 等多种任务类型提供了强大的调度能力。同时提供了可视化的代码开发,工作流设计页面,任务监控管理工具。

3.quickBi

3.png

quickBi 这是一个基于云计算的灵活的轻量级的自助 Bi 工具服务平台。它提供海量数据,实时在线分析服务、业务数据探查以及报表制作工具等等。

quick Bi 的核心流程分为以下四个部分:第一步,创建数据源。第二步,创建数据集。第三步是制作工作表或者仪表板等等。第四步是搭建企业级的数据模式。

 

二、常见图标类型

在可视化报表展示中会用到多种的图表。

4.png线图比较折线图看似僵直,标注重点,通过直线将这些点按照某种顺序连接起来,形成了图。它的特点是反应事物变化趋势可以清晰的展现数据的增减趋势、速率、规律、峰值等等特征。

组图又称柱状图,是一种以长方形的长度来表达数值的统计报告图,适合用于展示二维数据集。其中一个轴表示需要对比的分类维度,另一个轴表示相应的数值,比如销售月份和商品的销量关系。

饼图是以饼状的图形显示一个数据系列中各项大小与各项总和的一个比例。但用户更关注于简单的占比的时候,使用饼图。

散点图将数据以点的形式展现,以显示变量间的相互关系或者影响的程度。点的位置是由变量的数值决定的。散点图看上去会比较乱,基本上只能看与相关分布聚合信息,其他信息均不能很好的展现。

雷达图又称蜘蛛网图,将多个维度的数据集映射到其属于同一个圆心的坐标轴上,结束于圆周边,然后将同一组的点用连线连接起来。雷达图适用于多维的数据集,但是也不能太多,一般48个即可。

漏斗图是由多个T形上到下叠加而。,有逻辑上的顺序关系,T形面积表示各个环节的与上一个环节之间的差异,适用于业务流程比较规范,周期长、环节多的单流程单向分析。

树图是通过树形的结构来展现成绩数据的组织关系,以父子层次结构来组织对象是枚举法的一种表达方式,适合于与组织结构有关的分析,有明确的层次关系的数据。

矩阵树图,采用矩阵表示城市结构的节点或者城市关系用举证间的相互嵌套来表达,适合展现具有层级关系的数据,能够直观的体现同级之间的比较。

来源去向图,举个简单的例子,通过页面的浏览量pv和独立导入用户数uv推算出网页的转化率,进而可以了解网站的整体运营效果和某一类商品的最终成交量,适用于电商或者与营销有关的分析。

指标看板是通过文字、数字和符号的合理排版,对数据进行一目了然的展示,是用来展示一个维度下的多个度量,特别是对某些指标需要精确读书的场景。

仪表盘像一个钟表或者是刻度盘,有指针和刻度。其中刻度表示度量指针,角度表示数值,而指针指向的是当前的数据。这个场景主要用于进度和占比的在线。

地图是使用地图作为背景,将数据在不同地理位置上的分布,通过颜色或者气泡定则在,适合带有地理位置信息的数据集的展现。

极坐标图是由多个扇区构成的,适用于枚举数据之间的比较,比如显示一段时间内的数据变化或显示各项之间的比较情况,不适合分类过少或者部分度量值或小的一个数据集。

词云图又称文字云,是文本数据的视觉表示。由词汇组成内饰云的彩色图形。用于展示大量的文本数据,每个词的重要性,以字的大小或者颜色来显示区分,用于描述关键字及标签。


三、使用场景

5.png适合比较的有柱图、雷达图、漏斗图及坐标图、旋风漏斗图和词云图。

而比较适合占比的情况,有饼图、漏斗图、仪表盘和矩阵树图。

适合相关场景的有散点图矩阵树图,指标看板图和来源去向图。

能够显示维度的变化情况的是线图和柱图。

然后适合地理图的是气泡地图和色彩地图。


四、业务流程

6.png数据的采集部分需要把数据集上传到 max computer上进行存储,

在数据的加工部分,通过dataworks管理工具来调用 max computer 的计算服务,对数据进行处理配置调度任务。

在数据展示部分,应用 quickbi 对 max computer 的计算结果制作各类报表。

这是 dataworks 的开发界面。7.png这是 quickbibi 的报表展示界面

8.png实验中需要完成以上两部分的内容。

在日常生活中啊,还有一种比较酷炫可视化实时数据大屏,比如双十一的销量数据实时播报等。9.png阿里云的 data v 产品可以实现这个功能。

data v 可以帮助非专业的工程师通过图形化的界面,轻松搭建专业水准的交互式实时数据可视化视屏墙,满足日常业务监控、风险预警、会长演示等多种场景的使用需求,即时呈现,隐藏在瞬息万变且庞杂数据背后的业务洞察,相比于传统的图表与数据仪表盘界面更加生动,更加友好。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
数据可视化 数据挖掘 BI
数据分析工具
【5月更文挑战第17天】数据分析工具
65 6
|
8天前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
43 0
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析工具有哪些
【7月更文挑战第3天】Python数据分析工具有哪些
158 58
|
3月前
|
人工智能 数据挖掘 Python
提升办公生产力工具——AI数据分析应用小浣熊
办公小浣熊广泛应用于日常数据分析、财务分析、商业分析、销售预测、市场分析等多个领域,为用户提供了强大的支持。
提升办公生产力工具——AI数据分析应用小浣熊
|
3月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19174 12
|
3月前
|
数据挖掘 大数据 Linux
探索Linux中的snice命令:一个虚构但启发性的数据分析工具
`snice`是一个想象中的Linux命令,用于低优先级地从大数据集中抽样数据。它结合`nice`和`sampling`,支持多种抽样策略,如随机和分层。参数包括指定样本数、策略、输入输出文件和进程优先级。示例:`snice -n 1000 -s random -i large_log.txt -o sample_log.txt`。使用时注意资源管理、数据完整性及权限,并与其它工具结合使用。虽然虚构,但体现了Linux工具在数据分析中的潜力。
|
5月前
|
存储 安全 数据挖掘
性能30%↑|阿里云AnalyticDB*AMD EPYC,数据分析步入Next Level
第4代 AMD EPYC加持,云原生数仓AnalyticDB分析轻松提速。
性能30%↑|阿里云AnalyticDB*AMD EPYC,数据分析步入Next Level
|
3月前
|
数据可视化 数据挖掘 API
数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。
【7月更文挑战第5天】数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。Matplotlib是基础库,提供高度自定义的2D图表,而Seaborn在其上构建,提供美观的统计图形。文章介绍了如何用两者画线图、散点图、条形图、饼图和直方图,展示数据趋势和关系。
39 1
|
3月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。

热门文章

最新文章