数据预处理-航线类型操作类型实现详细思路|学习笔记

简介: 快速学习数据预处理-航线类型操作类型实现详细思路

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理-航线类型操作类型实现详细思路】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11653


数据预处理-航线类型操作类型实现详细思路


内容介绍:

一、概述

二、具体目的及详细思路


一、概述

前面已经将思路理清,了解了要实现飞行类型与操作类型的目标与基本思路。接下来进行详细思路的梳理。详细思路会涉及到数据库的读取,下面继续完整地进行读取数据库后的更新、处理等操作流程,这是第二次的完整操作,后续再遇到类似的从数据库里面读取时就不在进行完整的学习了。


二、具体目的及详细思路

1. 目的

确定一条数据的业务场景,根据数据库中配置的规则(四种)确定规则。

2.实现思路

解析出的 url 与四种规则进行匹配,这个 url 匹配与哪个规则匹配成功,表示这个数据属于哪个规则类型。

3.四种情况

国内查询(0-0)国内预定(0-1)国际查询(1-0)国际预定(1-1)

4.具体实现思路

(1)读取数据分类规则,是从数据库中 itcast_classify_rule 分类数据规则表中读取的。四种规则,每种单独读取到预处理程序。不能一次性全部混入读取,这样无法确定到底是哪种业务场景。在查询时要确定字段expression from itcast_classify_rule where(条件)等于什么,例如 flight_type operation_type 均是0,表示国内查询,确定现需要将国内查询读取出来,所以把 flight_type operation_type 均等于0的全部读取出来,而要计算国内预定时要将 flight_type=0、operation_type=1的全部读取出来。即四种情况分别查询出来,每一个规则单独读取到程序里。

(2)将数据分类规则加载到广播变量,因为要让其它的节点都可以访问到。

(3)在 redis 内添加是否需要更新数据分类规则的标识,每批次都从 redis 中读取这个标识,判断是否需要更新数据分类规则

(4)若不需要更新,那么直接执行分类操作;

若需要更新,那么在数据库中重新读取新的分类规则到程序中,所以读取数据库的操作可以单独写一个方法,方便直接调用。重新读取后将广播站清空,再把新的规则加载到广播里,然后把是否需要更新分类规则的标记改成 false,改完后数据就读取过来了。

(5)分类

1.定义方法,参数为经过拆分后的 URL 和分类的广播变量规则,即 URL 和四种变量规则都要放入方法中,这个方法会在后续课程中完成代码的书写。

2.先在分类的广播变量中获取四种业务场景的规则

3.遍历四种规则与数据进行匹配,数据与哪种匹配成功,表示这个数据就是这种类型,最终返回类型最终返回类型(国内查询国内预定国际查询国际预定)

因为前面的四种业务场景获取过来后放到广播变量中去了,拿到广播变量里面的数据后,先把这四种场景的数据规则单独的拆分出来,然后再分别遍历四种规则当中的数据与 url 进行匹配。如果数据与四个规则当中的任何一个匹配成功,表示该数据就属于该业务场景,最终返回类型,即国内查询、国际查询、国内预定和国际预定。

目录
打赏
0
0
0
0
55
分享
相关文章
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
31853 78
如何保证分布式文件系统的数据一致性
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17655 18
灵骏可预期网络:Built for AI Infrastructure
通用人工智能离我们越来越近,全世界的关注和投入正在带来日新“周”异的变化。回顾人工智能的诞生和发展历程,人类计算能力的进步几乎牵动了每一次的重大技术突破,当前的大模型热潮更是如此,只是动辄千万亿参数级的模型体量,所需计算资源远超单颗芯片的上限,超大规模的计算集群成为支撑技术发展和应用创新的关键基础设施。面向智能:云基础设施网络技术面临新挑战如何突破单个芯片、单个服务器节点的算力上限,在超大规模情况
31193 10
灵骏可预期网络:Built for AI Infrastructure
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36193 19
设计模式(C++版)
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24468 14
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36515 15
重生之---我测阿里云U1实例(通用算力型)
为笔记本更换固态硬盘的方法
本文介绍为笔记本电脑拆机、更换固态硬盘的具体方法~
18011 41
为笔记本更换固态硬盘的方法
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29747 52
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等