开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:6.DataWorks 数据分析介绍及实践】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1232
6.DataWorks 数据分析介绍及实践(一)
内容介绍:
一、什么是数据分析
二、数据分析的过程
三、本地v.s.在线数据分析
四、DataWorks数据分析
五、使用演示
一、什么是数据分析
这张图描述数据信息与情报的关系,从外界环境中通过采集拿到数据,环境有可能是软件的,比方从业务系统中采集到的日志数据,也有可能是硬件的,比方传感器从环境中采集到的传感数据,那原始数据的价值密度通常是比较低的,通过原始数据的加工和处理,加工和萃取得到有价值的信息,而对信息的进一步的分析与生产就得到情报。
1、数据分析是以发掘有价值的信息,用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。
2、数据分析在使决策更加科学,帮助企业更有效的运营方面发挥着作用。
二、数据分析的过程
1、需求分析主要是先明确需求,业务的核心问题是什么,需要做出什么决策,为支撑决策,那需要拿到什么样的证据?
2、明确需求后,需要进行数据采集,这个环节有以下几个问题,期望的数据可能在技术层是没有存储的,或者是有存储,但是数据分散在数据仓库的不同位置,数据采集的过程就是要解决这些问题。
3、数据采集后通常会需要做一些数据清洗的工作,因为数据往往是不完整的,有重复值有错值有空值的,数据清洗就是防止和纠正这些错误的过程。
4、数据清洗完后,就可以借助数据分析工具对数据进行探索分析,常见的数据分析工具有微软的Excel,tableau、sql,r语言、Python等等,那分析的过程可能还会包含机器学习算法的应用,数据分析完成后,往往需要以可视化的形式将结果展示给需求方。因此数据分析的过程通常包括需求分析、数据采集、数据清洗、探索分析和最终的可视化呈现。
三、本地v.s.在线数据分析
数据分析可以分为本地数据分析和在线数据分析,本地数据分析最常见的就是用Excel 做数据分析。它非常的方便,但同时也会有很多问题。
1、首先是重复操作的问题。用户在Excel文件上的分析往往是一次性的,于是传统的数据分析师需要每周每月或者每季度的去重复它的分析的操作,效率是比较低的。
2、第二点是性能差的问题,这一点如果在本地数据分析的数据量不太大时,其实可能体会不到,当数据量比较大时,性能就成了瓶颈。主要有两方面的原因,Excel能够显示的数据行数是有上限的,上线与Excel的版本有关。另一方面受制于个人电脑的计算性能,当数据量比较大时,其实本地数据分析不可避免的会产生卡顿的情况。
3、第三点是数据孤立的问题,在数据上云的背景下会逐渐的凸显出来,数据本身其实是超越了文件的边界,很多时候对单一的表的分析价值是非常有限的,需要把企业各个业务系统的数据都拉通,这样才能拿到更有价值的分析结果。
4、最后一点是安全风险,企业的数据放在本地,放在员工的个人电脑上,很难做到分享和下载过程中的权限是可控的。
相对应的查看在线数据分析是如何解决这些问题的?针对重复操作问题,使用在线的数据分析工具是可以做到数据的刷新。比如DataWorks数据分析模块,有一张用户画像表,这张表是分区表,对9月的分区进行透视的操作,把某字段做一行,把某字段做一列,进行透视,等到10月份时,可以直接把透视的配置复用到10月份的那个分区上,这样就非常高效的完成数据的更新。另外借助计算引擎的强大的计算能力,可以对全量的,海量的数据进行高效的数据分析。另外在线数据分析可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。另外DataWorks数据分析模块还支持将分析的结果导出成一张表,或者或者是将分析结果分享给别人,那这样的数据就在不同的系统之间,在不同的人之间流动起来。非常重要的一点,用户不需要将数据下载到本地,就可以在线上完成数据分析,并且做到分享分析过程中的权限可控,保证企业的数据安全。
四、DataWorks 数据分析
1、问题
(1)我有一张表存在MaxCompute/EMR/RD./...里 ,我想对查询结果做进一步的统计分析,我该怎么做?
(2)拿到一张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?
(3)DataWorks能做透视分析吗?
(4)我想手动编辑一张维表,可我不会写SQL,我该怎么办?
这些问题都可以通过DataWorks数据分析模块有很好的解决。
2、数据分析场景
对数据仓库中的数据进行数据洞察、在线查询,可视化报表分析和搭建,提取出有效信息而形成结论,辅助决策。
(1)数据地图
全局数据表检索,可通过表详情、数据预览、数据血缘等方式快速理解数据。
(2)数据地图
表,资源、函数等数据资产使用权限的申请和审批入口,表权限-键申请。
(3)DataStudio
在临时查询任务中对数据仓库里的数据进行加工,加工结果支持简单分析。
(4)数据分析
可使用“从数据源查询"功能从数据源直接取数,支持透视表和数据探查,零SQL完成数据分析。
数据分析是用于数据快速洞察分析,在线编辑及数据可视化的模块,包括电子表格、维表、报表三大功能。
3、电子表格
(1)进行取数、探索、 分享的个人空间。
可以看到它以电子表格为主体,支持一些常见的表格的功能,用户可以快速的上手。
1.支持从本地/数据源导入数据
2.个人视角的查询工作台
3.数据探查
4.数据透视
5.数据可固化、分析结果可分享
(2)数据探查
拿到数据后,可以借助数据探查的功能快速的洞察数据,功能会对各个字段的值的分布,包括它的类型数值的分布做统计,可以帮助用户快速的掌握数据的分布情况。
1.快速洞察数据
2.支持概览模式和详细模式
3.数据筛选、多级下钻
它能够帮助用户判断这些数据是否需要去做数据清洗,以及数据清洗的目的是什么。
(3)透视表
1.支持本地透视和数据源透视,也就是可以对电子表格中的数据进行透视,也可以直接对数据源的全量的数据进行透视。
2.维度支持自定义排序
3.数值类型可分组
4.透视配置可复制
比方对这张表9月的分区做一次透视的操作,等10月份数据更新后,可以通过刷新数据源,把透视配置给复用到10月的分区上。
(4)保存与分享
1.支持模版功能,可以直接从模板新建。
2.可保存为MaxCompute表
3.支持分享(指定人、指定权限)
直接生成建表语句,并且把数据插入到表中。除此之外还可以把电子表格分享出去,分享时可以指定某人,并且给他相应的权限,他是可以编辑的,还是只能阅读的。
4、维表
简单高效的维表编辑工具
在日常的工作中,其实运营同学常常会需要去维护一张线上的 MaxCompute 表,这时他可能找到研发的同学,跟他说自己的需求,研发的同学就打开 DataStudio 新建手动的任务,在里面写建表语句,并且把数据插入进来,最后把任务提交到生产环境,在生产环境运行任务就会建一张 MaxCompute 生产表,每当数据有更新时,过程都要重复一次,那链路很长,而且涉及到的人员比较多,操作起来效率是很低的。有维表后,运营的同学可以直接用可视化的方式自己创建一张MaxCompute 生产表,通过可视化的方式对字段进行命名,填写字段描述,点击确认就生成一张线上的表,它可以把本地的数据导入到这张表中,也可以直接在表格中操作,像在Excel中操作是一样的,直接在里面写数据,有修改也可以非常方便的打开这张维标进行修改,从而缩短整个的操作链路,提升工作的效率。
5、报表
数据可视化呈现
(1)提供多种报表组件
(2)拖拉拽完成报表搭建
(3)支持分享