最终整体回顾(代码-离线计算)|学习笔记

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 快速学习最终整体回顾(代码-离线计算)

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段最终整体回顾(代码-离线计算)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11745


最终整体回顾(代码-离线计算)


内容简介

一、数据备份

二、数据恢复

三、离线数据支撑

四、离线计算


一、数据备份

需求

为反之 redis 中的数据丢失,所以将数据备份于 HDFS

把数据再录到 redis 的同时,收集过来数据,然后把它写到 HDFS 上面,就备份好了。


二、数据恢复

需求

数据丢失需要恢复

代码:

黑名单 Redis 数据恢复

BlackListToRedis.blackListDataToRedis(jedis,sc,sqlContext)

在这个界面,如果需要恢复,那我们就去把这个值逻辑词里面这个值改成 yes 就可以了,然后,它就自动就恢复过来了。这个是恢复的代码。


三、离线数据支撑

从 Kafka 当中读取过来预处理后的数据,拿过来直接写到HDFS里面,这个就是写入到 HDFS 的过程。

然后再拿了一个预处理后的数据写到 HDFS,写完以后,我们又做了一个监控,而这个监控指的是爬虫识别的监控,而这个爬虫识别的监控与数据预处理的监控,他们的这个逻辑思想和和这个代码基本上是一致的,只有很小一部分不一样。


四、离线计算

因为一开始的数据用不了,所以要先进行处理

处理完以后,我们去进行离线分析,先把数据分为两批数据,一个是爬虫这个数据预处理后的结果,还有一个是计算出来的爬虫数据,这两个爬虫数据让他们俩去进行碰撞碰撞,然后筛选出一些纯爬虫数据

然后再往后过滤字段啊,可能有二十几个字的,就用6个就够了,写了两个自定义函数定义函数。

根据把前面写的这两个字对应函数用起来,拿到以后利用这6个字段去进行离线报表的计算,这里面国内查询的国际查询的转化率,这几个转化率我们带着一个一个走了一遍,包括这里面先过滤出,哪一个操作第1步先过滤从哪个操作第2步用谁除以谁,这边写的清清楚楚。

注意:

1代表国际数据,0代表国内数据。

这两个点的变化。第2个国际查询和国内查询是一样的,一样的操作就换一下,上面是国内,这个是国际,换一下这个值就可以。

国内航班选择、国际航班选择爬虫转化率、正常用户转化率全部用合理的后面的代码,离线计算就统计完了。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
4天前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
28 10
|
1月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
4月前
软件复杂度问题之根据统计的运算子和运算元数据计算Halstead复杂度,如何解决
软件复杂度问题之根据统计的运算子和运算元数据计算Halstead复杂度,如何解决
|
4月前
|
SQL 索引
业务系统架构实践问题之想要再SQL代码中生成递增序列,那么步骤问题如何解决
业务系统架构实践问题之想要再SQL代码中生成递增序列,那么步骤问题如何解决
|
6月前
|
Java 数据处理 Apache
流计算中的窗口操作是什么?请解释其作用和使用场景。
流计算中的窗口操作是什么?请解释其作用和使用场景。
72 0
|
6月前
|
分布式计算 并行计算 算法
图计算中的性能优化有哪些方法?请举例说明。
图计算中的性能优化有哪些方法?请举例说明。
53 0
|
11月前
|
Cloud Native 前端开发
【性能优化上】第三方组织结构同步优化一,分状态,分步骤的设计,你 get 到了吗?
【性能优化上】第三方组织结构同步优化一,分状态,分步骤的设计,你 get 到了吗?
|
存储 SQL 分布式计算
分布式图计算如何实现?带你一窥图计算执行计划
分布式图计算如何实现?带你一窥图计算执行计划
分布式图计算如何实现?带你一窥图计算执行计划
|
机器学习/深度学习 算法 计算机视觉
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
舌体胖瘦的自动分析-曲线拟合-或许是最简单判断舌形的方案(六)
147 0
|
运维 Cloud Native 安全
不可变构建及如何提升构建效率(一)|学习笔记
快速学习不可变构建及如何提升构建效率(一)
116 0
不可变构建及如何提升构建效率(一)|学习笔记