数据预处理-航线类型操作类型实现详细思路|学习笔记

简介: 快速学习数据预处理-航线类型操作类型实现详细思路

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理-航线类型操作类型实现详细思路】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11653


数据预处理-航线类型操作类型实现详细思路


内容介绍:

一、概述

二、具体目的及详细思路


一、概述

前面已经将思路理清,了解了要实现飞行类型与操作类型的目标与基本思路。接下来进行详细思路的梳理。详细思路会涉及到数据库的读取,下面继续完整地进行读取数据库后的更新、处理等操作流程,这是第二次的完整操作,后续再遇到类似的从数据库里面读取时就不在进行完整的学习了。


二、具体目的及详细思路

1. 目的

确定一条数据的业务场景,根据数据库中配置的规则(四种)确定规则。

2.实现思路

解析出的 url 与四种规则进行匹配,这个 url 匹配与哪个规则匹配成功,表示这个数据属于哪个规则类型。

3.四种情况

国内查询(0-0)国内预定(0-1)国际查询(1-0)国际预定(1-1)

4.具体实现思路

(1)读取数据分类规则,是从数据库中 itcast_classify_rule 分类数据规则表中读取的。四种规则,每种单独读取到预处理程序。不能一次性全部混入读取,这样无法确定到底是哪种业务场景。在查询时要确定字段expression from itcast_classify_rule where(条件)等于什么,例如 flight_type operation_type 均是0,表示国内查询,确定现需要将国内查询读取出来,所以把 flight_type operation_type 均等于0的全部读取出来,而要计算国内预定时要将 flight_type=0、operation_type=1的全部读取出来。即四种情况分别查询出来,每一个规则单独读取到程序里。

(2)将数据分类规则加载到广播变量,因为要让其它的节点都可以访问到。

(3)在 redis 内添加是否需要更新数据分类规则的标识,每批次都从 redis 中读取这个标识,判断是否需要更新数据分类规则

(4)若不需要更新,那么直接执行分类操作;

若需要更新,那么在数据库中重新读取新的分类规则到程序中,所以读取数据库的操作可以单独写一个方法,方便直接调用。重新读取后将广播站清空,再把新的规则加载到广播里,然后把是否需要更新分类规则的标记改成 false,改完后数据就读取过来了。

(5)分类

1.定义方法,参数为经过拆分后的 URL 和分类的广播变量规则,即 URL 和四种变量规则都要放入方法中,这个方法会在后续课程中完成代码的书写。

2.先在分类的广播变量中获取四种业务场景的规则

3.遍历四种规则与数据进行匹配,数据与哪种匹配成功,表示这个数据就是这种类型,最终返回类型最终返回类型(国内查询国内预定国际查询国际预定)

因为前面的四种业务场景获取过来后放到广播变量中去了,拿到广播变量里面的数据后,先把这四种场景的数据规则单独的拆分出来,然后再分别遍历四种规则当中的数据与 url 进行匹配。如果数据与四个规则当中的任何一个匹配成功,表示该数据就属于该业务场景,最终返回类型,即国内查询、国际查询、国内预定和国际预定。

相关文章
|
5月前
|
数据可视化 数据挖掘
【因果推断】Day01- 实用计量方法图解与概述
【因果推断】Day01- 实用计量方法图解与概述
99 2
|
15天前
|
数据采集 数据挖掘 数据处理
数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
【4月更文挑战第3天】数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
20 2
|
2月前
|
C++
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
69 0
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
|
2月前
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
39 0
|
3月前
|
算法 搜索推荐 数据挖掘
图计算中的图算法有哪些常见的类型?请举例说明每种类型的算法。
图计算中的图算法有哪些常见的类型?请举例说明每种类型的算法。
33 0
|
4月前
|
数据采集 安全 数据挖掘
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
72 0
|
8月前
|
算法
算法训练Day28|● 93.复原IP地址 ● 78.子集 ● 90.子集II
算法训练Day28|● 93.复原IP地址 ● 78.子集 ● 90.子集II
|
8月前
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
|
8月前
|
机器学习/深度学习 算法 计算机视觉
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
69 0
|
9月前
|
数据采集 机器学习/深度学习 自然语言处理
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
140 0