6.DataWorks 数据分析介绍及实践(二)|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习6.DataWorks 数据分析介绍及实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:6.DataWorks 数据分析介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1232


6.DataWorks 数据分析介绍及实践(二)

五、使用演示

1、首先前往阿里云的官网在搜索框输入dataworks,点击搜索就可以直达,也可以在产品分类大数据位置找到dataworks,点击管理控制台。点击工作空间列表,选择某个工作空间点击进入首页。

2、首页放置两个常用的场景,大数据开发场景,数据分析场景使用的链路

image.png

3、切换到数据分析场景链路现在可以通过点击卡片进入数据分析模块,也可以通过左上角切换到数据分析模块。

4、数据分析模块的首页,可以看到它分为三大功能,一个是电子表格,是维表,是报表。

5、重点演示是电子表格功能,点击电子表格,可以看到它分为两个部分,中是新建电子表格,下面是全部的电子表格,可以点击新建空白的电子表格,也可以从某个模板新建

6、下面创建电子表格的列表,点击右上角也可以切换为分享给的,这里能查看到别人分享给的电子表格的列表,对电子表格会有同命名转交克隆删除的操作。

7、新建电子表格,可以把一些数据导入到电子表格中,可以手动的编辑数据,也可以选择把一些现成的数据导入进,可以选择导入本地的数据。比方想导入某一个Excel文件,点击选择文件,有一个谷歌应用商店的数据把它导入进,点击确认。

image.png

8、看到谷歌应用商店的对应用的评分数据已经被导入进,拿到数据后想用数据探查的功能整体查看数据的分布,可以看到有APP字段有187个唯一的值,目录主要是 family 和 tours 分类,至于应用的评分,可看到是有一些空值存在的,可以把空值给取消掉,这样就可以查看到应用评分分布的情况,包括评论的数量的直方图统计,这里是概览的信息,如果想要更详细的统计信息,可以点击详细模式查看更多的统计的数据

9、对数据有基本解后,可以对数据进行透视分析,点击透视可以选择本地的数据进行透视,也可以使用外部数据源透源。先点击第一个狗功能,点击确认。

10首先查看APP的评分的情况,可以把评分作为行维度,把APP的数量作为指标,可以看到它现在的排序是比较乱的,而且里面有一些空值,这时可以做一些筛选,选择它的评分不等于好,现在就会把空值给筛掉,现在可以看到它排序是乱掉的,再进行排序,rating 等级按照首字母顺序,它是按照012345的排序排的

11还可以按照免费应用还是付费应用做透视的分析,可以查看到免费的应用有1231个,而付费的应用有107个,各个不同免费和付费的他们各自的等级评分等级的分布也都可以查看到。

12怎么从数据源导入数据,并且完成进一步的分析?新建 sheet,点击从数据查询功能,进入到查询模式,这里是个人视角的查询分析的工作台。

13要分析的是一张用户画像表,它存在 MaxCompute 里,找到项目双击进去,通过搜索找到的那张表 portrait 表

14对它进行基本信息的查看,或者是进行数据预览,点击取消,如果需要查询他所有字段,可以直接通过拖拽的方式,一句代码都不用写,直接把它拖到表格中,它就会自动运行查询。可以看到查询结果已经插入到电子表格中

15比方想查询女性用户的用户画像,那可以通过双击 gender 字段,它就会自动生成一条sql语句,select from dw demo s td. user_ portrait 202008 where gender输入女性,点击运行,它就会把这条sql运行结果插入进,还可以把查询保存下,这样可以重复的使用文件。下面是个人的查询文件管理的地方,还有运行的历史,通过双击操作可以快速的把这次运行的代码载入到编辑器中。现在已经拿到数据,关闭查询模式

image.png

16在透视时直接选择某数据源进行透视的操作,选择使用外部数据源,现在要透视的这张表还是用户画像表,选择数据源类型为 MaxCompute,选择对应的工作空间,选择那张表 odps. dw demo. std.user. portrait, 202008,它是一张非分区表,所以不用指定它的分区。

17现在可以在右侧查看到表的结构,现在开始透视分析,希望把性别放到维度上,把消费水平和城市水平放到行维度上,根据这些维度对用户的拼音进行分析,再加指标,购物车加购的情况,可以看到城市等级的顺序是有问题的,设置排序城市等级可以按照首字母的顺序,消费水平可以手动的排序,低、中、高,点击确定。

18可以看到顺序是对的,这样就得到一张简单的透视表

19现在觉得指标的可读性不,可以给他命令一个名字中文名购物车,Pv改为浏览量。

20现在是对9月份的用户画像表进行分析,如果10月份时要做相同的这样透视分析,要怎么把的这些操作复用到10月份的数据上呢?可以在数据源点击编辑,把数据表更改为10月份的那张表就可以,或者如果表是分区表,可以只去修改它的分区,点击确定数据就会刷新为对应更新过的数据。

21把的透视表分享给其他人,可以点击右上角的分享,指定其他人并且给他赋予相应的权限,他就可以查看或者编辑透视表。对应的同学他是可以在他的电子表格的页面看到

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
SQL 分布式计算 DataWorks
解锁数据洞察:通过 DataWorks 获得深度数据分析
DataWorks提供了一种全新的数据洞察功能,通过深度数据分析和可视化,为您的业务决策提供有力支持。了解更多如何利用AI技术解析复杂数据。
148 7
解锁数据洞察:通过 DataWorks 获得深度数据分析
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
使用Jupyter Notebook进行数据分析:入门与实践
【6月更文挑战第5天】Jupyter Notebook是数据科学家青睐的交互式计算环境,用于创建包含代码、方程、可视化和文本的文档。本文介绍了其基本用法和安装配置,通过一个数据分析案例展示了如何使用Notebook进行数据加载、清洗、预处理、探索、可视化以及建模。Notebook支持多种语言,提供直观的交互体验,便于结果呈现和分享。它是高效数据分析的得力工具,初学者可通过本文案例开始探索。
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
48 2
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
155 0
|
2月前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
3月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析的新手指南深入浅出操作系统:从理论到代码实践
【8月更文挑战第30天】在数据驱动的世界中,掌握数据分析技能变得越来越重要。本文将引导你通过Python这门强大的编程语言来探索数据分析的世界。我们将从安装必要的软件包开始,逐步学习如何导入和清洗数据,以及如何使用Pandas库进行数据操作。文章最后会介绍如何使用Matplotlib和Seaborn库来绘制数据图表,帮助你以视觉方式理解数据。无论你是编程新手还是有经验的开发者,这篇文章都将为你打开数据分析的大门。
|
4月前
|
关系型数据库 分布式数据库 数据库
基于PolarDB的图分析:保险数据分析实践
本文以公开的保险数据集为例,示例了基于云原生数据库PolarDB上,在保险理赔场景下,执行图查询来发现异常理赔记录和欺诈团伙:例如,查询与欺诈保单有相同理赔病人的其他保单,或者找出欺诈保单的投保人社交关系,以便进行欺诈预警。PolarDB在关系型数据库的基础上,提供了图分析能力,为企业的统一数据管理和分析,提供了强有力的支撑。
|
3月前
|
运维 DataWorks 安全
DataWorks产品使用合集之只读实例数据库是否可以进行数据分析
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 监控 数据挖掘
DataWorks产品使用合集之数据分析维表有什么用处
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在运行数据分析任务时,底层依赖服务alisa.olap.submitjob出现了异常,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

热门文章

最新文章