Zeppeinlin-数据探索| 学习笔记

简介: 快速学习 Zeppeinlin-数据探索

开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第七阶段)Zeppeinlin-数据探索】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/682/detail/11851


Zeppeinlin-数据探索

内容介绍

一、zeppelin 的作用

二、数据集的上传演示

三、课后任务

 

一、zeppelin 的作用

Zeppelin 有两大作用,第一大作用,进行数据可视化,第二大作用进行数据的探索。

数据的探索,数据的可视化经常是配合起来去使用的,比如说操作一些spark,然后把 spark操作的结果以图表的形式给它展示出来。

 

二、数据集的上传演示

1)操作演示

dmp项目当中有一个数据集pmt.json,把pmt.json数据集上传到 HDFS 上,使用 zap 来去读取 hdfs 上的文件,读取完以后就进行相应的数据探索。

点击 upload to current folder,然后找到对应的路径,把路径输入。然后进入到路径下,这有一个pmt.json,进行上传。

image.png

使用 HDFS 的命令来进行操作,使用hdfs dfs-put给它上传到对应的 HDFS目录下,但是如果这样的话,要先有一个目录,所以采用hdfs dfs -mkdir-p/dataset然后指定一下,要给它放在dataset目录下 ,执行完成以后,就把文件的文件夹创建完成,接下来就把hdfs dfs-put,把对应的文件pmt.json上传到/dataset 目录下。

2)结果检测

完成以后,在浏览器当中 CD01-50070 找到 HDFS 对应的目录,找到页面以后就能看到对应的文件目录, 点击 dataset 目录,存在 pmt.json

image.png

接下来进入到 Zeppelin 当中,点击 notebook,创建一个新的 notebook 叫做Text2。去执行一段 spark 程序,使用spark read json

指定的是一个 Json文件,hdfs//cdh01-8020/dataset/pmt.json

输入进行相应的读取,读取完以后一般情况下会给它命名叫 source

注意:

source变量在整个的 test文档,整个note当中都是有效的,如果后面再创建一个叫做source的一个变量,它会把当前的变量给覆盖掉。

接下来去执行这段代码,因为初次要去初始化 spark的环境,这是一个新的note,所以会稍微有一点慢,执行完以后就使用

source.show来去查看里面的内容。

image.png

 

如果不解数据集,使用source. create or replaceTempView然后就把它注册为一个临时的一个表,注册命名为TMT

执行以后就使用ssql 来进行相应的探索,比如说看到数据集当中都有什内容,以图表的形式展示,select from pmt然后去执行,执行完以后把对应的结果给显示出来,但是稍微会有一点慢, 这样的话图表就显示出来,然后里面的所有字段都在这。

image.png

然后只看其中的几项,比如说 select,然后只看到前面在生成text的时候,是需要有一个 uuid 的内容,然后还看到比如说 at priceid type 等一些内容,或者还看到 devices 对应的信息,还看到一些类似的这样的一些信息,看到appid,然后 from pmt 这样的数据集,进行相应的查询,查询以后就能看到uuid appid之间的对应关系,以图表的形式来去展示其中的内容,比如说时候应该就使用饼图,然后使用饼图以后,uuidappid拖放到目录下。

进行一个相应的展示,展示已经超过1000行,所以目前它应该是看不到准确的结果。

3)图表展示

image.png

这是的图表的展示,比如说还有散点图,注意到它对应的都是展示一些散点,比如说如果要进行adspace type的一个分析,输入select  adspace type pmt然后接下来就能看到一个图表,就使用其他的一些图来进行展示,比如说把adspacetype SUM拖入,然后把对应的也叫做adspacetype,他就能看到对应的结果。

 image.png

比如说饼图也可以去看,展示出来,大概有一个饼图,把对应的图表展示出来以后,就知 adspacetype3是最多的。

image.png

接下来其实本质上要做的这是,zappelin 当中的主要任务就是按照标签来进行聚合,按照标签来进行一些图计算等一些功能。比如说图计算,图计算最终的结果应该是标签对应的权重,进行一个标签的输出。输出完标签以后,还再以图表的形式或者以表的形式来进行展示,展示以后看到结果,下一步再以结果来再进行一些相应的探索,让一步一步的探索,最终得到结果,这就是zappelin的作用。

同时如果想把这一段的分享出去也可以的,在右边找到对应的分享功能。

比如说地方有一个link this photograph点开,然后并且把它分享出去,复制页面,然后在其他的复制一下 ul在其他的地方也进行相应的展示,直接把图表展示到其他的网页上,让所有人都能看到图表,也有助于团队之间的协作。


三、课后任务

整个 dmp 项目到这已经彻底结束,包括内容也进行一个简单的说明,下去以后大家使用 zapplin 做两件事,第一件事就是进行数据探索,把你探索的结果做第二件事,以图表的形式来进行展示

相关文章
|
Web App开发 前端开发 Java
Apache Zeppelin系列教程第二篇——整体架构
Apache Zeppelin系列教程第二篇——整体架构
304 0
|
SQL 分布式计算 数据可视化
Apache Zeppelin系列教程第一篇——安装和使用
Apache Zeppelin系列教程第一篇——安装和使用
783 0
|
存储 SQL 分布式计算
Flink - 读取 Parquet 文件 By Scala / Java
parquet 文件常见与 Flink、Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面介绍 Flink 场景下如何读取 Parquet。
1869 0
Flink - 读取 Parquet 文件 By Scala / Java
|
5月前
|
Ubuntu Linux
在Ubuntu 22.04系统中如何将Cgroup v2切换为v1
需要注意的是,虽然Cgroup v1和v2在功能上有一些差异,但大多数用户可能并不需要关心这些差异。除非你有特殊的需求,或者你的应用程序需要使用Cgroup v1的特定功能,否则你可能并不需要切换Cgroup版本。在大多数情况下,使用系统默认的Cgroup版本就可以满足需求。
240 10
|
Prometheus Cloud Native Go
Golang语言之Prometheus的日志模块使用案例
这篇文章是关于如何在Golang语言项目中使用Prometheus的日志模块的案例,包括源代码编写、编译和测试步骤。
202 3
Golang语言之Prometheus的日志模块使用案例
|
SQL Java Apache
实时计算 Flink版操作报错合集之使用parquet时,怎么解决报错:无法访问到java.uti.Arrays$ArrayList类的私有字段
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何从指定的savepoint恢复任务
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
实时计算 Flink版产品使用问题之如何从指定的savepoint恢复任务
|
存储 Java 数据处理
Java的Base64加密解密详解
Java的Base64加密解密详解
|
Linux 网络安全 数据安全/隐私保护
Linux——配置SSH免密登录
Linux——配置SSH免密登录
302 0
|
网络协议 Go
[golang]gin框架接收websocket通信
[golang]gin框架接收websocket通信
273 0