开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第七阶段):Zeppeinlin-数据探索】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/682/detail/11851
Zeppeinlin-数据探索
内容介绍
一、zeppelin 的作用
二、数据集的上传演示
三、课后任务
一、zeppelin 的作用
Zeppelin 有两大作用,第一大作用,进行数据可视化,第二大作用进行数据的探索。
数据的探索,数据的可视化经常是配合起来去使用的,比如说操作一些spark,然后把 spark操作的结果以图表的形式给它展示出来。
二、数据集的上传演示
(1)操作演示
在 dmp项目当中有一个数据集pmt.json
,把pmt.json
数据集上传到 HDFS 上,使用 zap 来去读取 hdfs 上的文件,读取完以后就进行相应的数据探索。
点击 upload to current folder,然后找到对应的路径,把路径输入。然后进入到路径下,这有一个pmt.json
,进行上传。
使用 HDFS 的命令来进行操作,使用hdfs dfs-put
给它上传到对应的 HDFS目录下,但是如果这样的话,要先有一个目录,所以采用hdfs dfs -mkdir-p/dataset
然后指定一下,要给它放在dataset目录下 ,执行完成以后,就把文件的文件夹创建完成,接下来就把hdfs dfs-put,把对应的文件pmt.json上传到/dataset 目录下。
(2)结果检测
完成以后,在浏览器当中 CD01-50070 找到 HDFS 对应的目录,找到页面以后就能看到对应的文件目录, 点击 dataset 目录,存在 pmt.json
接下来进入到 Zeppelin 当中,点击 notebook,创建一个新的 notebook 叫做Text2。去执行一段 spark 程序,使用spark read json
,
指定的是一个 Json文件,hdfs://cdh01-8020/dataset/pmt.json
输入进行相应的读取,读取完以后一般情况下会给它命名叫 source。
注意:
source变量在整个的 test文档,整个note当中都是有效的,如果后面再创建一个叫做source的一个变量,它会把当前的变量给覆盖掉。
接下来去执行这段代码,因为初次要去初始化 spark的环境,这是一个新的note,所以会稍微有一点慢,执行完以后就使用
source.show
来去查看里面的内容。
如果不解数据集,使用source. create or replaceTempView
然后就把它注册为一个临时的一个表,注册命名为TMT,
执行以后就使用ssql 来进行相应的探索,比如说看到数据集当中都有什内容,以图表的形式展示,select from pmt然后去执行,执行完以后把对应的结果给显示出来,但是稍微会有一点慢, 这样的话图表就显示出来,然后里面的所有字段都在这。
然后只看其中的几项,比如说 select,然后只看到前面在生成text的时候,是需要有一个 uuid 的内容,然后还看到比如说 at price,id type 等一些内容,或者还看到 devices 对应的信息,还看到一些类似的这样的一些信息,看到appid,然后 from pmt 这样的数据集,进行相应的查询,查询以后就能看到uuid和 appid之间的对应关系,以图表的形式来去展示其中的内容,比如说时候应该就使用饼图,然后使用饼图以后,uuid和appid拖放到目录下。
进行一个相应的展示,展示已经超过1000行,所以目前它应该是看不到准确的结果。
(3)图表展示
这是的图表的展示,比如说还有散点图,注意到它对应的都是展示一些散点,比如说如果要进行adspace type
的一个分析,输入select adspace type pmt
然后接下来就能看到一个图表,就使用其他的一些图来进行展示,比如说把adspacetype SUM
拖入,然后把对应的也叫做adspacetype,他就能看到对应的结果。
比如说饼图也可以去看,展示出来,大概有一个饼图,把对应的图表展示出来以后,就知 adspacetype3是最多的。
接下来其实本质上要做的这是,zappelin 当中的主要任务就是按照标签来进行聚合,按照标签来进行一些图计算等一些功能。比如说图计算,图计算最终的结果应该是标签对应的权重,进行一个标签的输出。输出完标签以后,还再以图表的形式或者以表的形式来进行展示,展示以后看到结果,下一步再以结果来再进行一些相应的探索,让一步一步的探索,最终得到结果,这就是zappelin的作用。
同时如果想把这一段的分享出去也可以的,在右边找到对应的分享功能。
比如说地方有一个link this photograph
点开,然后并且把它分享出去,复制页面,然后在其他的复制一下 ul在其他的地方也进行相应的展示,直接把图表展示到其他的网页上,让所有人都能看到图表,也有助于团队之间的协作。
三、课后任务
整个 dmp 项目到这已经彻底结束,包括内容也进行一个简单的说明,下去以后大家使用 zapplin 做两件事,第一件事就是进行数据探索,把你探索的结果做第二件事,以图表的形式来进行展示