DataWorks数据分析模块 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

作者:DataWorks产品经理 张华蕊


一、什么是数据分析

什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。


总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

幻灯片4.PNG


数据分析包含以下几个步骤:


首先是需求分析。先明确需求,比如业务的核心问题是什么,需要做什么决策,为了支撑这个决策需要拿到什么信息等。


第二步是数据采集。明确了需求后,可以进行数据采集,但这个环节可能会遇到几个问题。首先是期望的数据可能在技术层面是没有存储的,或是有存储但分散在数据仓库的不同位置,数据采集需要先解决这些问题。

幻灯片5.PNG

第三步是数据清洗。采集上来的数据往往是不完整、有重复、有错值、有空值的,数据清洗就是防止和纠正这些错误的过程。


第四步是探索分析。探索分析是借助分析工具对数据完成分析,这个过程中还可能包含机器学习算法的应用。


第五步可视化呈现。当数据分析之后,将会以可视化的方式呈现给需求方。


数据分析包括本地数据分析和在线数据分析。


本地数据分析最常见的是用Excel来做数据分析。但是由于数据分析师需要每周、每月或每个季度去重复分析,所以Excel做数据分析的第一个问题就是效率比较低。 而且用Excel做数据分析,也有性能差的问题,当所需要分析的数据量比较大的时候,性能就成了瓶颈,一个是因为Excel能够显示的数据行是有限的,另一个也受制于个人电脑的性能。用Excel做数据分析还有数据孤立的问题,针对单一数据表的分析价值是有限的,而企业更看重把各个业务系统数据拉通的分析结果。最后的问题就是安全风险问题。企业的数据放在本地某个员工的个人电脑上,是很难做到分享和下载过程中的权限控制。  

幻灯片6.PNG

在线数据分析就可以很好的解决上述问题。在线数据分析工具可以做到数据刷新,从而避免重复操作。例如在DataWorks的数据分析模块中有一张用户画像的分区表,如果9月份对这个分区表进行了透视操作,若10月还想做这个操作,只要把9月的配置直接复制到10月的分区上就可以高效实现数据更新。


另外,借助计算引擎强大的计算能力,在线数据分析还能对海量的数据进行高效的数据分析。同时可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。DataWorks数据分析模块还支持将分析结果导出成一张MaxCompute表,或是直接将分析结果分享给其他人,这样数据就在不同系统和人之间流动起来了。


非常重要的是,使用在线数据分析模块,用户不需要把数据下载到本地就可以完成数据分析 ,并且做到分享。这个过程中权限可控,保证了数据的安全。


二、DataWorks数据分析

DataWorks用户经常会有以下这些疑问:

  • 问题一:我有一张表存在MaxCompute/EMR/RDS/…里,我想对查询结果做进一步的统计分析,我该怎么做?
  • 问题二:拿到一张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?DataWorks能做透视分析吗?
  • 问题三:我想手动编辑一张维表,可我不会写SQL,我该怎么办?


这些问题都可以通过DataWorks分析模块解决。


(一)DataWorks数据分析模块

以下这张图展示了DataWorks各个模块之间是怎么配合完成数据分析需求的。

幻灯片9.PNG

首先做数据采集,通过在数据地图中搜索本次数据分析所需要的表,并通过表详情、数据预览、数据血缘查看理解数据。然后申请这个表或某个字段的查询权限,然后用户就可以去DataStudio做进一步加工,或是选择去数据分析模块,使用数据分析中“从数据源查询”的功能,从数据源直接取数并放入表格里,然后以表格的形式进行数据探查和透视分析。


总的来说,数据分析适用于数据快速洞察分析,在线编辑和数据可视化模块;数据分析模块的三大功能包含电子表格、维表、报表。


(二)电子表格

电子表格是数据分析模块的核心功能,能够为用户提供进行取数、探索、分享的个人空间。它以电子表格为主体,可以支持常见的表格功能,让用户可以快速上手。


电子表格具有以下功能:

  • 支持从本地/数据源导入数据
  • 个人视角查询工作台
  • 数据探查
  • 数据透视
  • 分析结果可固化为MaxCompute表,也可以分享


(三)电子表格-从数据源查询功能

从数据源查询功能支持丰富的数据源类型,当把某个数据源添加进来,可以查询字段结构或生成数据预览;通过双击或拖拽的方式可以快速生成查询语句,点击运行就能生成数据查询结果。它的编辑器是智能编辑器,可以智能地提供补全、高亮提示、智能纠错等功能;查询代码可以保存下来,并且运行历史也可以追溯。

幻灯片11.PNG


(四)电子表格-数据探查功能

拿到数据后,可以借助数据探查功能来快速地洞察数据。这个功能对各个字段值的分布做统计,帮助用户快速掌握数据分布情况;并且支持概览模式和详细模式,并且支持数据筛选和多级下钻,能够帮助用户判断这些数据是否需要做数据清洗,明确清洗目的。

幻灯片12.PNG


(五)电子表格-透视功能

透视功能是数据分析师常用的功能,电子表格支持本地透视和数据源透视两种,也就是说可以对电子表格里面的数据进行透视,也可以直接对数据源的全量数据进行透视。透视功能的维度支持自定义排序,数值类型可以分组,透视配置支持复制。

幻灯片13.PNG


(六)电子表格-保存与分享

电子表格的保存与分享支持模板功能,意思是用户可以首先把电子表格保存成一个模板,再新建的时候就可以直接从这个保存的模板里新建。同时也可以把分析的结果固化成为一张MaxCompute表,直接生成建表语句,并且把数据插入到表里。当需要分享电子表格的时候,可以指定人或权限。


(七)维表

维表是一个简单高效的表编辑工具。在日常工作中,运营同学常常需要去维护一张线上的MaxCompute表,一般情况他需要找研发同事新建一张MaxCompute生产表来进行维护,而每一次数据更新都需要找研发同事重复这个新建生产表的过程,不仅涉及人员多,而且效率低。


使用维表后,运营同学就可以直接用可视化方式自己建一张MaxCompute生产表,对字段进行命名和描述,点击确认就能生成一张线上的表。表生成后,可以把本地数据导入到表里,也可以直接在表上写数据。无论是写数据还是修改,都可以直接在维表中进行,这样就缩短了整个操作链路,提高工作效率。

幻灯片15.PNG


(八)报表

报表是可视化呈现的工具,它提供多种报表组件,用户可以通过拖拽组件来完成报表的搭建。搭建完成后,可以把整个报表分享给其他人。

幻灯片16.PNG


数据分析介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1232


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之查看数据地图模块总的存储大小失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute即使用相同的SQL语句在DataWorks和Tunnel上执行,结果却不同,如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
10天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在运行数据分析任务时,底层依赖服务alisa.olap.submitjob出现了异常,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
11天前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何进行数据治理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之在DataWorks数据开发模块中一直显示“工作空间默认初始化中”,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
37 3
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks导出大数据量的文件如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
48 1
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks基础属性:调度参数典型场景配置示例如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
34 0
|
1月前
|
分布式计算 DataWorks 数据处理
DataWorks产品使用合集之在DataWorks中管理MaxCompute模块的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
40 0
|
1月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之DataWorks中管理MaxCompute模块的步骤是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks