DataWorks数据分析模块 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

作者:DataWorks产品经理 张华蕊


一、什么是数据分析

什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。


总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

幻灯片4.PNG


数据分析包含以下几个步骤:


首先是需求分析。先明确需求,比如业务的核心问题是什么,需要做什么决策,为了支撑这个决策需要拿到什么信息等。


第二步是数据采集。明确了需求后,可以进行数据采集,但这个环节可能会遇到几个问题。首先是期望的数据可能在技术层面是没有存储的,或是有存储但分散在数据仓库的不同位置,数据采集需要先解决这些问题。

幻灯片5.PNG

第三步是数据清洗。采集上来的数据往往是不完整、有重复、有错值、有空值的,数据清洗就是防止和纠正这些错误的过程。


第四步是探索分析。探索分析是借助分析工具对数据完成分析,这个过程中还可能包含机器学习算法的应用。


第五步可视化呈现。当数据分析之后,将会以可视化的方式呈现给需求方。


数据分析包括本地数据分析和在线数据分析。


本地数据分析最常见的是用Excel来做数据分析。但是由于数据分析师需要每周、每月或每个季度去重复分析,所以Excel做数据分析的第一个问题就是效率比较低。 而且用Excel做数据分析,也有性能差的问题,当所需要分析的数据量比较大的时候,性能就成了瓶颈,一个是因为Excel能够显示的数据行是有限的,另一个也受制于个人电脑的性能。用Excel做数据分析还有数据孤立的问题,针对单一数据表的分析价值是有限的,而企业更看重把各个业务系统数据拉通的分析结果。最后的问题就是安全风险问题。企业的数据放在本地某个员工的个人电脑上,是很难做到分享和下载过程中的权限控制。  

幻灯片6.PNG

在线数据分析就可以很好的解决上述问题。在线数据分析工具可以做到数据刷新,从而避免重复操作。例如在DataWorks的数据分析模块中有一张用户画像的分区表,如果9月份对这个分区表进行了透视操作,若10月还想做这个操作,只要把9月的配置直接复制到10月的分区上就可以高效实现数据更新。


另外,借助计算引擎强大的计算能力,在线数据分析还能对海量的数据进行高效的数据分析。同时可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。DataWorks数据分析模块还支持将分析结果导出成一张MaxCompute表,或是直接将分析结果分享给其他人,这样数据就在不同系统和人之间流动起来了。


非常重要的是,使用在线数据分析模块,用户不需要把数据下载到本地就可以完成数据分析 ,并且做到分享。这个过程中权限可控,保证了数据的安全。


二、DataWorks数据分析

DataWorks用户经常会有以下这些疑问:

  • 问题一:我有一张表存在MaxCompute/EMR/RDS/…里,我想对查询结果做进一步的统计分析,我该怎么做?
  • 问题二:拿到一张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?DataWorks能做透视分析吗?
  • 问题三:我想手动编辑一张维表,可我不会写SQL,我该怎么办?


这些问题都可以通过DataWorks分析模块解决。


(一)DataWorks数据分析模块

以下这张图展示了DataWorks各个模块之间是怎么配合完成数据分析需求的。

幻灯片9.PNG

首先做数据采集,通过在数据地图中搜索本次数据分析所需要的表,并通过表详情、数据预览、数据血缘查看理解数据。然后申请这个表或某个字段的查询权限,然后用户就可以去DataStudio做进一步加工,或是选择去数据分析模块,使用数据分析中“从数据源查询”的功能,从数据源直接取数并放入表格里,然后以表格的形式进行数据探查和透视分析。


总的来说,数据分析适用于数据快速洞察分析,在线编辑和数据可视化模块;数据分析模块的三大功能包含电子表格、维表、报表。


(二)电子表格

电子表格是数据分析模块的核心功能,能够为用户提供进行取数、探索、分享的个人空间。它以电子表格为主体,可以支持常见的表格功能,让用户可以快速上手。


电子表格具有以下功能:

  • 支持从本地/数据源导入数据
  • 个人视角查询工作台
  • 数据探查
  • 数据透视
  • 分析结果可固化为MaxCompute表,也可以分享


(三)电子表格-从数据源查询功能

从数据源查询功能支持丰富的数据源类型,当把某个数据源添加进来,可以查询字段结构或生成数据预览;通过双击或拖拽的方式可以快速生成查询语句,点击运行就能生成数据查询结果。它的编辑器是智能编辑器,可以智能地提供补全、高亮提示、智能纠错等功能;查询代码可以保存下来,并且运行历史也可以追溯。

幻灯片11.PNG


(四)电子表格-数据探查功能

拿到数据后,可以借助数据探查功能来快速地洞察数据。这个功能对各个字段值的分布做统计,帮助用户快速掌握数据分布情况;并且支持概览模式和详细模式,并且支持数据筛选和多级下钻,能够帮助用户判断这些数据是否需要做数据清洗,明确清洗目的。

幻灯片12.PNG


(五)电子表格-透视功能

透视功能是数据分析师常用的功能,电子表格支持本地透视和数据源透视两种,也就是说可以对电子表格里面的数据进行透视,也可以直接对数据源的全量数据进行透视。透视功能的维度支持自定义排序,数值类型可以分组,透视配置支持复制。

幻灯片13.PNG


(六)电子表格-保存与分享

电子表格的保存与分享支持模板功能,意思是用户可以首先把电子表格保存成一个模板,再新建的时候就可以直接从这个保存的模板里新建。同时也可以把分析的结果固化成为一张MaxCompute表,直接生成建表语句,并且把数据插入到表里。当需要分享电子表格的时候,可以指定人或权限。


(七)维表

维表是一个简单高效的表编辑工具。在日常工作中,运营同学常常需要去维护一张线上的MaxCompute表,一般情况他需要找研发同事新建一张MaxCompute生产表来进行维护,而每一次数据更新都需要找研发同事重复这个新建生产表的过程,不仅涉及人员多,而且效率低。


使用维表后,运营同学就可以直接用可视化方式自己建一张MaxCompute生产表,对字段进行命名和描述,点击确认就能生成一张线上的表。表生成后,可以把本地数据导入到表里,也可以直接在表上写数据。无论是写数据还是修改,都可以直接在维表中进行,这样就缩短了整个操作链路,提高工作效率。

幻灯片15.PNG


(八)报表

报表是可视化呈现的工具,它提供多种报表组件,用户可以通过拖拽组件来完成报表的搭建。搭建完成后,可以把整个报表分享给其他人。

幻灯片16.PNG


数据分析介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1232


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
19天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
3月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
101 6
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
56 0
|
4月前
|
消息中间件 分布式计算 Kafka
MaxCompute 在实时数据分析中的角色
【8月更文第31天】随着大数据应用场景的不断扩展,对数据处理速度的要求越来越高,传统的批处理模式已经难以满足某些业务对实时性的需求。在这种背景下,实时数据处理成为了大数据领域的研究热点之一。阿里云的 MaxCompute 虽然主要用于离线数据处理,但通过与其他实时流处理系统(如 Apache Flink 或 Kafka Streams)的集成,也可以参与到实时数据分析中。本文将探讨 MaxCompute 在实时数据分析中的角色,并介绍如何将 MaxCompute 与 Flink 结合使用。
94 0
|
4月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
77 0
|
4月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之写入ODPS目的表时遇到脏数据报错,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
4月前
|
分布式计算 DataWorks NoSQL
DataWorks操作报错合集之遇到报错:failed: ODPS-0130071:[1,36] Semantic analysis exception,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
153 0
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之如何解决datax同步任务时报错ODPS-0410042:Invalid signature value
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

相关产品

  • 大数据开发治理平台 DataWorks