爬虫识别-Redis 爬虫数据备份-效果| 学习笔记

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 快速学习爬虫识别-Redis 爬虫数据备份-效果

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第六阶段爬虫识别-Redis 爬虫数据备份-效果】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/674/detail/11732


爬虫识别-Redis 爬虫数据备份-效果

效果

完成爬虫数据写到 Redis 的同时也写到 HDFS 中的代码之后,实际效果如下:要将数据写入到 hdfs 中,就需要有一个 hdfs 集群。在环境当中,有160客户端,100110120三个节点,三个节点既是 kafka,又是 JK,除了以上角色之外,还是集群。进入到上两级目录中,存在Hadoop。进入到 Hadoop中,在后台打开haddop。运行代码的时候,首先需要将数据的预处理运行,再将爬虫运行,此时会自动写到Redis,同时也会存储到 HDFS 中。以上是运行起来会出现的效果。查看是否开启,效果如下:

此时查看 Bin 目录的内容:

[root@node01 sbin]# hadoop fs -1s /

此时存在TMPuser目录。运行成功之后,会存在以下目录:

hdfs: //192.168.100.100: 8020/csair/ data/rule-black-Ipst/

嵌套之中存在年月日时。

此时,Hadoop 已经成功。运行程序,首先执行预处理程序,接下来执行爬虫程序,接下来运行爬虫识别程序,识别时同时调用写入 HTFS 的过程,此时没有报错,切换到HDFS中查看,多了一个目录,需要尽快查看其中的内容。从web界面中查看:

192.168.100.100.50070

效果如下:

image.png

以上是 Name node 节点。点击查看目录,找到根目录。查看根目录如下:

image.png

以上目录就是集群当中配置的目录。时中数据如下:

image.png

进行数据下载:

image.png

 

虽然是 packet 格式,但能够看懂。下载的数据如下:

 image.png

具体数据如下:

image.png

在文件中存在前缀、IP、规则名称、流程名称、时间戳、 Key value Value 是一个分数,加命中的规则和日期,也就是 Redis 对应的 KeyIP、流程 ID、时间。HDFS 中数据在不断增加。此时是从浏览器中查看。说明数据一边写入到Redis的同时也写到 HDFS 中,说明数据预处理的代码成功。此时完成了黑名单数据实时存储到 HDFS 中,用于 Redis 数据恢复。将其拆分到数据入库中,第一步是黑名单datafream 备份到 HDFS,第二步是添加黑名单 datafream,备份到 array buffer,第三步是增加黑名单数据,实时存储到 HDFS 功能。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
2月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
100 0
|
5月前
|
存储 NoSQL Linux
小白带你学习linux的Redis基础(三十二)
小白带你学习linux的Redis基础(三十二)
76 0
|
4月前
|
存储 NoSQL Redis
redis源码学习
redis源码学习
|
5月前
|
存储 NoSQL Ubuntu
在Ubuntu上安装Redis并学习使用get、set和keys命令
在Ubuntu上安装Redis并学习使用get、set和keys命令
|
6月前
|
缓存 NoSQL Redis
【Redis 系列】redis 学习十六,redis 字典(map) 及其核心编码结构
【Redis 系列】redis 学习十六,redis 字典(map) 及其核心编码结构
|
6月前
|
NoSQL 算法 Redis
【Redis 系列】redis 学习十四,sorted_set 初步探究梳理
【Redis 系列】redis 学习十四,sorted_set 初步探究梳理
|
6月前
|
存储 NoSQL Redis
【Redis 系列】redis 学习十五,redis sds数据结构和底层设计原理
【Redis 系列】redis 学习十五,redis sds数据结构和底层设计原理
|
4月前
|
NoSQL 中间件 API
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)(下)
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)
88 2
|
4月前
|
NoSQL Java API
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)(上)
分布式锁【数据库乐观锁实现的分布式锁、Zookeeper分布式锁原理、Redis实现的分布式锁】(三)-全面详解(学习总结---从入门到深化)
76 0
|
6月前
|
存储 NoSQL 算法
[Redis 系列]redis 学习 17,redis 存储结构原理 1
[Redis 系列]redis 学习 17,redis 存储结构原理 1