数据预处理-航线类型操作类型目标与思路|学习笔记

简介: 快速学习数据预处理-航线类型操作类型目标与思路

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理-航线类型操作类型目标与思路】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11652


数据预处理-航线类型操作类型目标与思路


内容介绍:

一、航线类型操作类型目标

二、航线类型操作类型实现思路


一、航线类型操作类型目标

1.概述

前面的课程中将数据拆分的流程进行了讲述,接下来学习数据的分类,也就是数据的打标签,可以分为是单程与往返以及飞行类型与操作类型。首先讲解如何进行飞行类型和操作类型的分类。

2.目的

确定一条数据的业务场景(国内查询、国际查询、国内预定、国际预定)。在数据采集的时候,第一步是采集数据,第二步是发送数据到 Kafka,采集的数据包括日期、request 以及 request method、connect type 等,但这些数据里并没有记录该数据是哪种业务场景,无法确定是国内查询还是国际查询,国内预定还是国际预定,即数据本身没有体现但是要给数据打上标签,需要根据数据里的内容判断出到底是哪种业务场景。之所以要判断业务场景的类型,是因为后续的数据解析等过程中会应用到飞行类型的数据,不对业务场景进行判断后续的功能就无法继续进行。

3.需求

在业务上,企业数据可以在操作类型维度分为“查询操作”和“预定操作”,例如南京航天航空官网首页,默认从广州到北京,点击查询,该业务场景属于查询操作。

image.png

选择日期和票价后,网页会给立即预订的按钮,点击跳转到添加乘客信息的界面,该业务场景属于预定操作。在航线类型维度可以分为国际航线和国内航线,例如从广州出发,出发地选择后到达地可以选择为国内或国际,

image.png

到达地选为亚洲的巴厘岛,点击查询,该业务场景也是查询操作,而该查询属于国际查询。在这两个维度下有四种可能,两两组合后分别是国内查询、国际查询、国内预定、国际预定。在数据采集时获得的实际数据中并没有信息表示这四种场景,然而在后续的模块中需要使用到这些信息。所以一条数据属于四种场景中的哪一种需要分析计算出来。

根据数据库中配置的规则(四种场景),与前面所解析出的url进行匹配,该 url与哪个规则匹配成功,表示该数据就是哪种规则类型的数据。


二、航线类型操作类型实现思路

1、现已经通过 DataSplit.dataSplit()方法将数据进行了拆分,获得到的数据是一个个独立的数据。RequestUrl 字段中存储着查询的 url。

2、读取数据库的 url 正则表达式(四种)到程序

3、遍历四种规则,使用 RequestUrl 中的 url 匹配四种规则,该规则在数据库里面,重复之前的流程,从数据库把规则读出,然后再把数据读出并进行匹配。判断数据是哪种操作哪种航线,并封装到对应的 RequestType 中。

4、分类数据的规则表 itcast_classify_rule

id

flight_type

operation_type

expression

1

0

0

^.*query.ao.*$

2

1

0

^.*ita/intl/zh/shop.*$

3

0

0

^.*postFlight.ao.*$

4

1

1

^.*/ita/intl/zh/passengers

5

0

1

^.*createOrder.xsql.*$

6

1

1

^.*ita/rest/intl/b/order.*$

7

0

1

^.*getRuleFromSuccessPa

8

0

1

^.*cancelOrder.*5

规则表如上所示,expression 列为四种业务场景的正则表达式,需求当中的四种情为 flight_type 列以及operation_type 的内容。右键选择设计表,了解各自的含义,数据中 flight_type 和 operation_type 是非零即一的。flight_type 中的0代表的是国内,1代表的是国外,operation_type 中0代表的是查询,1代表的是预定,它们四个两两组合出的结果就是国内查询、国际查询、国内预定和国际预定,例如 flight_type operation_type 均是0,代表的含义是国内查询;flight_type 为1,operation_type 为0,代表的是国际查询;flight_type operation_type均是1,代表队是国际预定。

操作类型中0代表查询,1代表预定;航班类型中0代表国内,1代表国外。组合类型如下表所示:

0

0

国内查询

0

1

国际查询

1

0

国内预定

1

1

国际预定

数据一条条流过的时候,前面已经把 URL 确定了,四种场景的规则也已经确定了,需求是要确定一条数据的业务场景,即确定业务场景为国内查询、国际查询、国内预定、国际预定四种情况中的哪一个。数据当中的 url 确定了,而且数据库也已经明确规定了00是国内查询,10是国际查询,现在要该规则读到程序里面,然后用 url 去与四种情况相匹配,实现思路即匹配出 url,然后去正则四种情况,匹配上哪个就是哪个场景,以上就是数据分类的需求以及实现的大概思路。

相关文章
|
7月前
|
存储 缓存 负载均衡
TensorRT LLM 中的并行策略
TensorRT LLM提供多种GPU并行策略,支持大模型在显存与性能受限时的高效部署。涵盖张量、流水线、数据、专家及上下文并行,并推出宽专家并行(Wide-EP)应对大规模MoE模型的负载不均与通信挑战,结合智能负载均衡与优化通信核心,提升推理效率与可扩展性。
1158 154
|
5月前
|
数据采集 人工智能 分布式计算
只靠国产算力与开源数据,端侧模型预训练行不行?我们做到了全流程开源
鹏城实验室与清华联合发布全流程开源大模型“开元-2B”,基于国产算力实现高效端侧训练。涵盖数据、代码、训练框架与技术报告,推动开放AI生态发展。
371 1
|
5月前
|
JSON 算法 Shell
实测腾讯混元HY-World 1.5:虚拟世界的推理实战
腾讯混元HY-World 1.5发布,全球首个开源、实时交互且具长时几何一致性的3D世界模型。支持24帧/秒流式生成,适用于虚拟拍摄、仿真合成等场景。提供双向、自回归及蒸馏模型,兼顾质量与速度。现已开放GitHub、Hugging Face及Lab4AI一键体验平台,助力创作者构建沉浸式虚拟世界。
371 0
|
6月前
|
人工智能 架构师 微服务
Prompt Engineering 的艺术:让 AI 听懂“人话”
Prompt Engineering 的艺术:让 AI 听懂“人话”
497 4
|
7月前
|
分布式计算 并行计算 算法
《数据之美》:图结构的精妙世界与算法实践
图是表示多对多关系的非线性数据结构,由顶点和边组成,可建模社交网络、路径导航等复杂系统。核心算法包括BFS/DFS遍历、Dijkstra最短路径、Floyd-Warshall全源最短路径,以及Prim和Kruskal最小生成树算法,广泛应用于推荐系统、社交分析与路径规划。
|
6月前
|
人工智能 自然语言处理 调度
数字人|数字人平台重点推荐与选择指南
数字人企业正引领虚拟与现实融合新潮流。像衍科技、灵眸数字、幻界科技三大标杆,以全栈技术、AI交互与元宇宙布局驱动产业升级,覆盖影视、电商、教育等场景,推动数字人从技术突破迈向规模化应用,开启数字经济新篇章。(238字)
|
传感器 机器学习/深度学习 人工智能
仿生机器人:自然界灵感的工程应用
【10月更文挑战第14天】仿生机器人作为自然界灵感与工程技术的完美结合,正逐步改变着我们的生活和工作方式。通过深入了解其设计原理、关键技术、应用领域以及未来的发展趋势,我们可以更加清晰地看到仿生机器人在推动科技创新和社会发展中的重要作用。让我们共同期待仿生机器人在未来带来的更多惊喜和变革!
|
缓存 前端开发 JavaScript
企业级应用,开源商城系统-lilishop
LILISHOP商城系统由北京宏业汇成科技有限公司开发,使用JAVA语言开发的企业级电商系统,主推模式为B2B2C(平台、商家、用户),支持商家入驻、商家结算。软件与2021年收录与开源中国,与2021年7月首次升级开源版本。 LILISHOP至力与为大、中、小企业提供高可用、高并发的电商解决方案,协助企业快速构建自己的电商平台。
2350 0
|
算法 Java 计算机视觉
IoU(Intersection-over-Union)
交并比 (intersection over union)即为两个区域的交集与并集的比值。
676 0
|
机器学习/深度学习 算法 计算机视觉
BN(Batch Normalization 批量归一化)
BN(Batch Normalization 批量归一化)
BN(Batch Normalization 批量归一化)

热门文章

最新文章