离线计算-国内查询转换率|学习笔记

简介: 快速学习离线计算-国内查询转换率

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段离线计算-国内查询转换率】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11740


离线计算-国内查询转换率


内容简介:

一、国内查询转换率计算公式

二、计算国内查询转换率

三、将计算出来的数据追加到数据库


一、国内查询转换率计算公式

计算公式:国内查询转换率=添加乘客信息量÷浏览的总量

浏览的总量除以浏览的总量添加乘客信息,多少个人添加,然后再加上浏览的总量,算出来的就是查询的转化率

比如说,有100个人查询,但是有50个人添加乘客信息,100个人浏览50个人添加乘客信息,那这50个就是我的转化率,50%


二、计算国内查询转换率

(1)、在 request1-transformed 表中过滤出是国内的操作

(2)、在上面数据的基础上过滤出 StageTag=2÷在上面数据的基础上过滤出 StageTag=1

代码

val  NatinalRate-1=

request1-transformed.filter(request1-transformed(“flightType”).equalTo(other=”National”)).filter(request1-transformed(“StageTag”).equalTo(other=”National”)).filter(request1-transformed(“StageTag”).equalTo(other=”2”)).count().toFloat/request1.filter(request1(“flightType”).equalTo(other=”National”)).filter(request1(“StageTag”).equalTo(other=”1”))

println(NatinalRate-1)

查出国内的转化数据,后再去算转化率,就是等于2的数据除以等于1的数据就是国内的转化率了。

我们拿到 AD 等于空的删掉剩下这些数据,然后我调用它的 filter,数据当中的 flattype national 的就是国内转化数据,等于 national 的,就是把国内的数据全都是过滤出来了

在过滤完国内的数据以后,去调一个 transformed 继续过滤,StageTag 等于2的数据过滤出来以后我再调用一个count,计算出数据个数,filter 看的就是国内的。不论是国内的时间等于1的,国内转换率等于2的数量除以国内的等于1的数量的总数,就是国内查询转换率 。


三、将计算出来的数据追加到数据库(Mysql)

通过并行化创建 RDD

θ查询到旅客信息,1旅客信息到下单,2下单到完成支付

itcast  domestic-inter-conversion-rate

第一个θ    步骤类型:θ查询到旅客信息,1旅客信息到下单,2下单到完成支付

第二个θ     类型:θ国内,1国际

等于“2“的数据量/等于”1“的数据量

代码

val itcast_domestic_inter_conversion_rate_RDD=

sc.parallelize(Array(UUID.randomUUID().toString()+”,”+”0,”=”0,”=NatinalRate_1)).map(_,split(regex=”,”))

//通过StructType直接指定每个字段schemaval schema=StrutType(List(StructFild(“id”,StringType,true),StructField(“step_type”,IntegerType,true),StructFild

//将RDD映射到rowRDDval rowRDD=itcast_domestic_inter_conversion_rate_RDD.map(p=>Row(p(0),p(1).toInt,p(3).toFloat,dataTin

//将schema信息应用到rowRDD上

val personDataFrame=sqlContext.createDataFrame(rowRDD,schma)

//将数据追加到数据库

personDataFrame.write.mode(saveMode=”append”).jobc(url=”jbdc:mysq1://192.168.100.160:3306/gciantider”,table= Gciantispider.itcast_domestic_inter_conversion_rate”,SparkMySq1Properties

Println(“国内查询转换率“)

Println(NatinalRate_1)

先输入一段代码,通过并行化创建 RDD,在 UUID 中,将数值和应用场景拼接起来,其中0代表查询的旅客信息,1代表旅客信息下单,2代表下单完成支付的信息。其中只有四个值,可实际中有五个值,第五个字段在后面补齐。

注意因为应用场景很多,所以在写入数据库时一定要把数据的应用场景也一并写入。数据有了,之后输入schema将数据对应数据库。然后将数据进行遍历,将数据进行封装,封装成 Row,顺便补齐第五个数值 dataTime。DataFreme 封装完以后,处理好的数据写入 Mysql 数据库之中即可。

相关文章
|
29天前
|
机器学习/深度学习 存储 搜索推荐
百亿大规模图在广告场景的应用
这篇摘要主要介绍了美团外卖在搜索推荐业务中如何利用图技术解决挑战,包括外卖广告搜索推荐业务的介绍、异构大图的演进、大规模图引擎的建设,以及系统的总结和展望。
|
2月前
|
存储 数据采集 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
随着业务在金融、保险和商城领域的不断扩展,众安保险建设 CDP 平台以提供自动化营销数据支持。早期 CDP 平台依赖于 Spark + Impala + Hbase + Nebula 复杂的技术组合,这不仅导致数据分析形成数据孤岛,还带来高昂的管理及维护成本。为解决该问题,众安保险引入 Apache Doris,替换了早期复杂的技术组合,不仅降低了系统的复杂性,打破了数据孤岛,更提升了数据处理的效率。
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
|
4月前
|
消息中间件 Kubernetes Serverless
定向减免,函数计算让轻量 ETL 数据加工更简单,更省钱
本文介绍了函数计算 FC 推出的定向减免方案,让 ETL 数据加工更简单、更自动化、容错能力更强,且业务实时性更高、计算费用更低。
|
11月前
|
算法 搜索推荐
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
232 1
|
数据采集 大数据 开发者
离线数据计算-国际查询转换率及其他|学习笔记
快速学习离线数据计算-国际查询转换率及其他
134 0
|
存储 SQL 缓存
双引擎驱动Quick BI十亿数据0.3秒分析,首屏展示时间缩短30%
在规划中,Quick BI制定了产品竞争力建设的三大方向,包括Quick(快)能力、移动端能力和集成能力。针对其中的产品“报表查看打开慢”“报表开发数据同步慢”等性问题开展专项战役——Quick战役,以实现展现快、计算快,为使用者提供顺滑体验为目标。
339 0
|
SQL 存储 缓存
【视频特辑】数据分析不卡顿,十亿数据0.3秒搞定!看看Quick引擎是如何做到的吧~
报表加载慢、分析卡顿导致思路被打断...常常会给数据分析师造成很大困扰。 不如试试Quick引擎,十亿数据只需0.3秒就可以完成数据分析!
238 0
【视频特辑】数据分析不卡顿,十亿数据0.3秒搞定!看看Quick引擎是如何做到的吧~
|
安全 大数据
分析720万条疫情信息后,阿里张子柯首次将舆情数据引入传染病模型
分析720万条疫情信息后,阿里张子柯首次将舆情数据引入传染病模型
244 0
|
存储 消息中间件 缓存
腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
腾讯看点基于 Flink 构建实时数仓以及实时数据查询系统,亚秒级的响应多维条件查询请求。
腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
|
人工智能 搜索推荐 关系型数据库
Data Lake Analytics助力加和科技广告智能业务 - 性能提升4倍+,临时业务需求承接率提升200%+
阿里云Data Lake Analytics助力加和科技广告智能业务 - 性能提升4倍+,临时业务需求承接率提升200%+
Data Lake Analytics助力加和科技广告智能业务 - 性能提升4倍+,临时业务需求承接率提升200%+