开发者学堂课程【场景实践-通过阿里云数据分析工具实现共享单车骑行分析:阿里云数据分析常用工具介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/527/detail/7096
阿里云数据分析常用工具介绍
内容介绍:
一、分析工具
二、常见图表类型
三、使用场景
四、业务流程
一、分析工具
本课程给安排了小实验,实验的环境是基于阿里云平台。所以本章会简单介绍实验中用到的三款数据分析工具。包括大数据计算服 maxcomputer,大数据开发套件 dataworks 以及数据可视化工具quickbi。
1.大数据计算服务
maxcomputer 是一种快速完全托管了 pb 级数据插播解决方案,它主要服务于批量结构化数据的存储和计算,提供海量数据仓库的解决方案,以及针对大数据的分析建模服务。有两个优点,第一是适合大规模的计算存储,适用于100GB 以上的规模的存储及计算,最大达到 EB 级别。第二个优点是支持多种计算模型,包括 SQL、GRAPH 以及迭代的算法等等。
2. dataworks
大数据开发套件 dataworks 基于 maxcomputer 作为核心的计算存储引擎,它提供的海量数据的离线加工分析、数据挖掘的能力。
dataworks 是阿里云推出的大数据领域 pass 平台,提供了数据集成、开发、管理、治理等多方位服务,支持数据同步 ODPS SQL 等多种任务类型提供了强大的调度能力。同时提供了可视化的代码开发,工作流设计页面,任务监控管理工具。
3.quickBi
quickBi 这是一个基于云计算的灵活的轻量级的自助 Bi 工具服务平台。它提供海量数据,实时在线分析服务、业务数据探查以及报表制作工具等等。
quick Bi 的核心流程分为以下四个部分:第一步,创建数据源。第二步,创建数据集。第三步是制作工作表或者仪表板等等。第四步是搭建企业级的数据模式。
二、常见图标类型
在可视化报表展示中会用到多种的图表。
线图比较折线图看似僵直,标注重点,通过直线将这些点按照某种顺序连接起来,形成了图。它的特点是反应事物变化趋势可以清晰的展现数据的增减趋势、速率、规律、峰值等等特征。
组图又称柱状图,是一种以长方形的长度来表达数值的统计报告图,适合用于展示二维数据集。其中一个轴表示需要对比的分类维度,另一个轴表示相应的数值,比如销售月份和商品的销量关系。
饼图是以饼状的图形显示一个数据系列中各项大小与各项总和的一个比例。但用户更关注于简单的占比的时候,使用饼图。
散点图将数据以点的形式展现,以显示变量间的相互关系或者影响的程度。点的位置是由变量的数值决定的。散点图看上去会比较乱,基本上只能看与相关分布聚合信息,其他信息均不能很好的展现。
雷达图又称蜘蛛网图,将多个维度的数据集映射到其属于同一个圆心的坐标轴上,结束于圆周边,然后将同一组的点用连线连接起来。雷达图适用于多维的数据集,但是也不能太多,一般4到8个即可。
漏斗图是由多个T形上到下叠加而。,有逻辑上的顺序关系,T形面积表示各个环节的与上一个环节之间的差异,适用于业务流程比较规范,周期长、环节多的单流程单向分析。
树图是通过树形的结构来展现成绩数据的组织关系,以父子层次结构来组织对象是枚举法的一种表达方式,适合于与组织结构有关的分析,有明确的层次关系的数据。
矩阵树图,采用矩阵表示城市结构的节点或者城市关系用举证间的相互嵌套来表达,适合展现具有层级关系的数据,能够直观的体现同级之间的比较。
来源去向图,举个简单的例子,通过页面的浏览量pv和独立导入用户数uv推算出网页的转化率,进而可以了解网站的整体运营效果和某一类商品的最终成交量,适用于电商或者与营销有关的分析。
指标看板是通过文字、数字和符号的合理排版,对数据进行一目了然的展示,是用来展示一个维度下的多个度量,特别是对某些指标需要精确读书的场景。
仪表盘像一个钟表或者是刻度盘,有指针和刻度。其中刻度表示度量指针,角度表示数值,而指针指向的是当前的数据。这个场景主要用于进度和占比的在线。
地图是使用地图作为背景,将数据在不同地理位置上的分布,通过颜色或者气泡定则在,适合带有地理位置信息的数据集的展现。
极坐标图是由多个扇区构成的,适用于枚举数据之间的比较,比如显示一段时间内的数据变化或显示各项之间的比较情况,不适合分类过少或者部分度量值或小的一个数据集。
词云图又称文字云,是文本数据的视觉表示。由词汇组成内饰云的彩色图形。用于展示大量的文本数据,每个词的重要性,以字的大小或者颜色来显示区分,用于描述关键字及标签。
三、使用场景
适合比较的有柱图、雷达图、漏斗图及坐标图、旋风漏斗图和词云图。
而比较适合占比的情况,有饼图、漏斗图、仪表盘和矩阵树图。
适合相关场景的有散点图矩阵树图,指标看板图和来源去向图。
能够显示维度的变化情况的是线图和柱图。
然后适合地理图的是气泡地图和色彩地图。
四、业务流程
数据的采集部分需要把数据集上传到 max computer上进行存储,
在数据的加工部分,通过dataworks管理工具来调用 max computer 的计算服务,对数据进行处理配置调度任务。
在数据展示部分,应用 quickbi 对 max computer 的计算结果制作各类报表。
这是 dataworks 的开发界面。这是 quickbibi 的报表展示界面
实验中需要完成以上两部分的内容。
在日常生活中啊,还有一种比较酷炫可视化实时数据大屏,比如双十一的销量数据实时播报等。阿里云的 data v 产品可以实现这个功能。
data v 可以帮助非专业的工程师通过图形化的界面,轻松搭建专业水准的交互式实时数据可视化视屏墙,满足日常业务监控、风险预警、会长演示等多种场景的使用需求,即时呈现,隐藏在瞬息万变且庞杂数据背后的业务洞察,相比于传统的图表与数据仪表盘界面更加生动,更加友好。