DataWorks数据分析模块 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

作者:DataWorks产品经理 张华蕊


一、什么是数据分析

什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。


总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。

幻灯片4.PNG


数据分析包含以下几个步骤:


首先是需求分析。先明确需求,比如业务的核心问题是什么,需要做什么决策,为了支撑这个决策需要拿到什么信息等。


第二步是数据采集。明确了需求后,可以进行数据采集,但这个环节可能会遇到几个问题。首先是期望的数据可能在技术层面是没有存储的,或是有存储但分散在数据仓库的不同位置,数据采集需要先解决这些问题。

幻灯片5.PNG

第三步是数据清洗。采集上来的数据往往是不完整、有重复、有错值、有空值的,数据清洗就是防止和纠正这些错误的过程。


第四步是探索分析。探索分析是借助分析工具对数据完成分析,这个过程中还可能包含机器学习算法的应用。


第五步可视化呈现。当数据分析之后,将会以可视化的方式呈现给需求方。


数据分析包括本地数据分析和在线数据分析。


本地数据分析最常见的是用Excel来做数据分析。但是由于数据分析师需要每周、每月或每个季度去重复分析,所以Excel做数据分析的第一个问题就是效率比较低。 而且用Excel做数据分析,也有性能差的问题,当所需要分析的数据量比较大的时候,性能就成了瓶颈,一个是因为Excel能够显示的数据行是有限的,另一个也受制于个人电脑的性能。用Excel做数据分析还有数据孤立的问题,针对单一数据表的分析价值是有限的,而企业更看重把各个业务系统数据拉通的分析结果。最后的问题就是安全风险问题。企业的数据放在本地某个员工的个人电脑上,是很难做到分享和下载过程中的权限控制。  

幻灯片6.PNG

在线数据分析就可以很好的解决上述问题。在线数据分析工具可以做到数据刷新,从而避免重复操作。例如在DataWorks的数据分析模块中有一张用户画像的分区表,如果9月份对这个分区表进行了透视操作,若10月还想做这个操作,只要把9月的配置直接复制到10月的分区上就可以高效实现数据更新。


另外,借助计算引擎强大的计算能力,在线数据分析还能对海量的数据进行高效的数据分析。同时可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。DataWorks数据分析模块还支持将分析结果导出成一张MaxCompute表,或是直接将分析结果分享给其他人,这样数据就在不同系统和人之间流动起来了。


非常重要的是,使用在线数据分析模块,用户不需要把数据下载到本地就可以完成数据分析 ,并且做到分享。这个过程中权限可控,保证了数据的安全。


二、DataWorks数据分析

DataWorks用户经常会有以下这些疑问:

  • 问题一:我有一张表存在MaxCompute/EMR/RDS/…里,我想对查询结果做进一步的统计分析,我该怎么做?
  • 问题二:拿到一张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?DataWorks能做透视分析吗?
  • 问题三:我想手动编辑一张维表,可我不会写SQL,我该怎么办?


这些问题都可以通过DataWorks分析模块解决。


(一)DataWorks数据分析模块

以下这张图展示了DataWorks各个模块之间是怎么配合完成数据分析需求的。

幻灯片9.PNG

首先做数据采集,通过在数据地图中搜索本次数据分析所需要的表,并通过表详情、数据预览、数据血缘查看理解数据。然后申请这个表或某个字段的查询权限,然后用户就可以去DataStudio做进一步加工,或是选择去数据分析模块,使用数据分析中“从数据源查询”的功能,从数据源直接取数并放入表格里,然后以表格的形式进行数据探查和透视分析。


总的来说,数据分析适用于数据快速洞察分析,在线编辑和数据可视化模块;数据分析模块的三大功能包含电子表格、维表、报表。


(二)电子表格

电子表格是数据分析模块的核心功能,能够为用户提供进行取数、探索、分享的个人空间。它以电子表格为主体,可以支持常见的表格功能,让用户可以快速上手。


电子表格具有以下功能:

  • 支持从本地/数据源导入数据
  • 个人视角查询工作台
  • 数据探查
  • 数据透视
  • 分析结果可固化为MaxCompute表,也可以分享


(三)电子表格-从数据源查询功能

从数据源查询功能支持丰富的数据源类型,当把某个数据源添加进来,可以查询字段结构或生成数据预览;通过双击或拖拽的方式可以快速生成查询语句,点击运行就能生成数据查询结果。它的编辑器是智能编辑器,可以智能地提供补全、高亮提示、智能纠错等功能;查询代码可以保存下来,并且运行历史也可以追溯。

幻灯片11.PNG


(四)电子表格-数据探查功能

拿到数据后,可以借助数据探查功能来快速地洞察数据。这个功能对各个字段值的分布做统计,帮助用户快速掌握数据分布情况;并且支持概览模式和详细模式,并且支持数据筛选和多级下钻,能够帮助用户判断这些数据是否需要做数据清洗,明确清洗目的。

幻灯片12.PNG


(五)电子表格-透视功能

透视功能是数据分析师常用的功能,电子表格支持本地透视和数据源透视两种,也就是说可以对电子表格里面的数据进行透视,也可以直接对数据源的全量数据进行透视。透视功能的维度支持自定义排序,数值类型可以分组,透视配置支持复制。

幻灯片13.PNG


(六)电子表格-保存与分享

电子表格的保存与分享支持模板功能,意思是用户可以首先把电子表格保存成一个模板,再新建的时候就可以直接从这个保存的模板里新建。同时也可以把分析的结果固化成为一张MaxCompute表,直接生成建表语句,并且把数据插入到表里。当需要分享电子表格的时候,可以指定人或权限。


(七)维表

维表是一个简单高效的表编辑工具。在日常工作中,运营同学常常需要去维护一张线上的MaxCompute表,一般情况他需要找研发同事新建一张MaxCompute生产表来进行维护,而每一次数据更新都需要找研发同事重复这个新建生产表的过程,不仅涉及人员多,而且效率低。


使用维表后,运营同学就可以直接用可视化方式自己建一张MaxCompute生产表,对字段进行命名和描述,点击确认就能生成一张线上的表。表生成后,可以把本地数据导入到表里,也可以直接在表上写数据。无论是写数据还是修改,都可以直接在维表中进行,这样就缩短了整个操作链路,提高工作效率。

幻灯片15.PNG


(八)报表

报表是可视化呈现的工具,它提供多种报表组件,用户可以通过拖拽组件来完成报表的搭建。搭建完成后,可以把整个报表分享给其他人。

幻灯片16.PNG


数据分析介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1232


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1天前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
123 92
|
12天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
69 1
|
1月前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
83 2
|
1月前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
114 0
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
585 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
71 2
|
17天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
2月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
124 1

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks