离线计算-国内查询转换率|学习笔记

简介: 快速学习离线计算-国内查询转换率

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段离线计算-国内查询转换率】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11740


离线计算-国内查询转换率


内容简介:

一、国内查询转换率计算公式

二、计算国内查询转换率

三、将计算出来的数据追加到数据库


一、国内查询转换率计算公式

计算公式:国内查询转换率=添加乘客信息量÷浏览的总量

浏览的总量除以浏览的总量添加乘客信息,多少个人添加,然后再加上浏览的总量,算出来的就是查询的转化率

比如说,有100个人查询,但是有50个人添加乘客信息,100个人浏览50个人添加乘客信息,那这50个就是我的转化率,50%


二、计算国内查询转换率

(1)、在 request1-transformed 表中过滤出是国内的操作

(2)、在上面数据的基础上过滤出 StageTag=2÷在上面数据的基础上过滤出 StageTag=1

代码

val  NatinalRate-1=

request1-transformed.filter(request1-transformed(“flightType”).equalTo(other=”National”)).filter(request1-transformed(“StageTag”).equalTo(other=”National”)).filter(request1-transformed(“StageTag”).equalTo(other=”2”)).count().toFloat/request1.filter(request1(“flightType”).equalTo(other=”National”)).filter(request1(“StageTag”).equalTo(other=”1”))

println(NatinalRate-1)

查出国内的转化数据,后再去算转化率,就是等于2的数据除以等于1的数据就是国内的转化率了。

我们拿到 AD 等于空的删掉剩下这些数据,然后我调用它的 filter,数据当中的 flattype national 的就是国内转化数据,等于 national 的,就是把国内的数据全都是过滤出来了

在过滤完国内的数据以后,去调一个 transformed 继续过滤,StageTag 等于2的数据过滤出来以后我再调用一个count,计算出数据个数,filter 看的就是国内的。不论是国内的时间等于1的,国内转换率等于2的数量除以国内的等于1的数量的总数,就是国内查询转换率 。


三、将计算出来的数据追加到数据库(Mysql)

通过并行化创建 RDD

θ查询到旅客信息,1旅客信息到下单,2下单到完成支付

itcast  domestic-inter-conversion-rate

第一个θ    步骤类型:θ查询到旅客信息,1旅客信息到下单,2下单到完成支付

第二个θ     类型:θ国内,1国际

等于“2“的数据量/等于”1“的数据量

代码

val itcast_domestic_inter_conversion_rate_RDD=

sc.parallelize(Array(UUID.randomUUID().toString()+”,”+”0,”=”0,”=NatinalRate_1)).map(_,split(regex=”,”))

//通过StructType直接指定每个字段schemaval schema=StrutType(List(StructFild(“id”,StringType,true),StructField(“step_type”,IntegerType,true),StructFild

//将RDD映射到rowRDDval rowRDD=itcast_domestic_inter_conversion_rate_RDD.map(p=>Row(p(0),p(1).toInt,p(3).toFloat,dataTin

//将schema信息应用到rowRDD上

val personDataFrame=sqlContext.createDataFrame(rowRDD,schma)

//将数据追加到数据库

personDataFrame.write.mode(saveMode=”append”).jobc(url=”jbdc:mysq1://192.168.100.160:3306/gciantider”,table= Gciantispider.itcast_domestic_inter_conversion_rate”,SparkMySq1Properties

Println(“国内查询转换率“)

Println(NatinalRate_1)

先输入一段代码,通过并行化创建 RDD,在 UUID 中,将数值和应用场景拼接起来,其中0代表查询的旅客信息,1代表旅客信息下单,2代表下单完成支付的信息。其中只有四个值,可实际中有五个值,第五个字段在后面补齐。

注意因为应用场景很多,所以在写入数据库时一定要把数据的应用场景也一并写入。数据有了,之后输入schema将数据对应数据库。然后将数据进行遍历,将数据进行封装,封装成 Row,顺便补齐第五个数值 dataTime。DataFreme 封装完以后,处理好的数据写入 Mysql 数据库之中即可。

相关文章
|
4月前
|
存储 关系型数据库 分布式数据库
|
6月前
|
机器学习/深度学习 存储 搜索推荐
百亿大规模图在广告场景的应用
这篇摘要主要介绍了美团外卖在搜索推荐业务中如何利用图技术解决挑战,包括外卖广告搜索推荐业务的介绍、异构大图的演进、大规模图引擎的建设,以及系统的总结和展望。
|
6月前
|
存储 弹性计算 关系型数据库
100W用户、8000W流量在线贺卡应用架构如何优化?
100W用户、8000W流量在线贺卡应用架构如何优化?
|
6月前
|
存储 搜索推荐 数据挖掘
淘宝商品详情API:挖掘实时数据金矿,点燃电商增长引擎
随着互联网的快速发展,电子商务在全球范围内得到了广泛应用。作为中国电商市场的领军者,淘宝不仅拥有庞大的用户群体和海量的商品数据,还提供了一系列的API接口,使得第三方开发者可以方便地获取并利用这些数据。其中,淘宝商品详情API是淘宝开放平台中非常重要的一项接口,它能够获取到淘宝网内商品的详细信息,从而帮助开发者更好地服务用户,提升电商业务的运营效率。 本文将详细介绍淘宝商品详情API的应用场景、使用方法和注意事项,并通过示例代码展示如何使用该API获取商品详情数据。同时,本文还将探讨如何利用这些数据实现个性化推荐、提升销售转化率等业务目标。
|
SQL 存储 大数据
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
5173 2
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
|
SQL 监控 数据库
网站流量日志分析—数据入库—宽表具体表现1—时间拓宽|学习笔记
快速学习网站流量日志分析—数据入库—宽表具体表现1—时间拓宽
232 0
网站流量日志分析—数据入库—宽表具体表现1—时间拓宽|学习笔记
|
存储 SQL Prometheus
三款“非主流”日志查询分析产品初探
本文介绍三款 "schema-on-read" 类型日志系统。
552 0
|
数据采集 大数据 开发者
离线数据计算-国际查询转换率及其他|学习笔记
快速学习离线数据计算-国际查询转换率及其他
164 0
|
存储 SQL Cloud Native
双11特刊 | 迎难而上,支撑350亿次在线查询的数据仓库是怎样炼成的?
阿里云数据库已连续多年稳定支撑天猫双11,历经极端流量场景淬炼。除了保障稳定顺滑的基本盘,今年大促期间数据库通过全面云原生化,大幅提升用户体验,让技术帮助业务产生更有价值的消费者体验,持续通过技术创新赋能用户,引领技术发展路径。 双11已圆满落幕,但技术的探索,仍未止步。 “阿里云数据库” 公众号特此推出《好科技的新起点——2021双11阿里云数据库技术揭秘》系列干货文章,为你讲述年度“技术大考”背后的故事,敬请关注!
546 1
双11特刊 | 迎难而上,支撑350亿次在线查询的数据仓库是怎样炼成的?
|
SQL 存储 缓存
【视频特辑】数据分析不卡顿,十亿数据0.3秒搞定!看看Quick引擎是如何做到的吧~
报表加载慢、分析卡顿导致思路被打断...常常会给数据分析师造成很大困扰。 不如试试Quick引擎,十亿数据只需0.3秒就可以完成数据分析!
298 0
【视频特辑】数据分析不卡顿,十亿数据0.3秒搞定!看看Quick引擎是如何做到的吧~