爬虫识别-Redis 爬虫数据备份-效果| 学习笔记

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 快速学习爬虫识别-Redis 爬虫数据备份-效果

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第六阶段爬虫识别-Redis 爬虫数据备份-效果】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/674/detail/11732


爬虫识别-Redis 爬虫数据备份-效果

效果

完成爬虫数据写到 Redis 的同时也写到 HDFS 中的代码之后,实际效果如下:要将数据写入到 hdfs 中,就需要有一个 hdfs 集群。在环境当中,有160客户端,100110120三个节点,三个节点既是 kafka,又是 JK,除了以上角色之外,还是集群。进入到上两级目录中,存在Hadoop。进入到 Hadoop中,在后台打开haddop。运行代码的时候,首先需要将数据的预处理运行,再将爬虫运行,此时会自动写到Redis,同时也会存储到 HDFS 中。以上是运行起来会出现的效果。查看是否开启,效果如下:

此时查看 Bin 目录的内容:

[root@node01 sbin]# hadoop fs -1s /

此时存在TMPuser目录。运行成功之后,会存在以下目录:

hdfs: //192.168.100.100: 8020/csair/ data/rule-black-Ipst/

嵌套之中存在年月日时。

此时,Hadoop 已经成功。运行程序,首先执行预处理程序,接下来执行爬虫程序,接下来运行爬虫识别程序,识别时同时调用写入 HTFS 的过程,此时没有报错,切换到HDFS中查看,多了一个目录,需要尽快查看其中的内容。从web界面中查看:

192.168.100.100.50070

效果如下:

image.png

以上是 Name node 节点。点击查看目录,找到根目录。查看根目录如下:

image.png

以上目录就是集群当中配置的目录。时中数据如下:

image.png

进行数据下载:

image.png

 

虽然是 packet 格式,但能够看懂。下载的数据如下:

 image.png

具体数据如下:

image.png

在文件中存在前缀、IP、规则名称、流程名称、时间戳、 Key value Value 是一个分数,加命中的规则和日期,也就是 Redis 对应的 KeyIP、流程 ID、时间。HDFS 中数据在不断增加。此时是从浏览器中查看。说明数据一边写入到Redis的同时也写到 HDFS 中,说明数据预处理的代码成功。此时完成了黑名单数据实时存储到 HDFS 中,用于 Redis 数据恢复。将其拆分到数据入库中,第一步是黑名单datafream 备份到 HDFS,第二步是添加黑名单 datafream,备份到 array buffer,第三步是增加黑名单数据,实时存储到 HDFS 功能。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
相关文章
|
6月前
|
数据采集 存储 数据可视化
分布式爬虫框架Scrapy-Redis实战指南
本文介绍如何使用Scrapy-Redis构建分布式爬虫系统,采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略,实现高效数据抓取。结合价格动态趋势分析,助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储,提供完整的技术路线图与代码示例。
569 0
分布式爬虫框架Scrapy-Redis实战指南
|
4月前
|
数据采集 存储 NoSQL
分布式爬虫去重:Python + Redis实现高效URL去重
分布式爬虫去重:Python + Redis实现高效URL去重
|
存储 NoSQL Redis
Redis系列学习文章分享---第十六篇(Redis原理1篇--Redis数据结构-动态字符串,insert,Dict,ZipList,QuickList,SkipList,RedisObject)
Redis系列学习文章分享---第十六篇(Redis原理1篇--Redis数据结构-动态字符串,insert,Dict,ZipList,QuickList,SkipList,RedisObject)
153 1
|
NoSQL Java Redis
Redis系列学习文章分享---第十八篇(Redis原理篇--网络模型,通讯协议,内存回收)
Redis系列学习文章分享---第十八篇(Redis原理篇--网络模型,通讯协议,内存回收)
654 0
|
存储 消息中间件 缓存
Redis系列学习文章分享---第十七篇(Redis原理篇--数据结构,网络模型)
Redis系列学习文章分享---第十七篇(Redis原理篇--数据结构,网络模型)
187 0
|
11月前
|
NoSQL 数据可视化 Linux
redis学习四、可视化操作工具链接 centos redis,付费Redis Desktop Manager和免费Another Redis DeskTop Manager下载、安装
本文介绍了Redis的两个可视化管理工具:付费的Redis Desktop Manager和免费的Another Redis DeskTop Manager,包括它们的下载、安装和使用方法,以及在使用Another Redis DeskTop Manager连接Redis时可能遇到的问题和解决方案。
1160 1
redis学习四、可视化操作工具链接 centos redis,付费Redis Desktop Manager和免费Another Redis DeskTop Manager下载、安装
|
12月前
|
存储 JSON NoSQL
redis基本数据结构(String,Hash,Set,List,SortedSet)【学习笔记】
这篇文章是关于Redis基本数据结构的学习笔记,包括了String、Hash、Set、List和SortedSet的介绍和常用命令。文章解释了每种数据结构的特点和使用场景,并通过命令示例演示了如何在Redis中操作这些数据结构。此外,还提供了一些练习示例,帮助读者更好地理解和应用这些数据结构。
redis基本数据结构(String,Hash,Set,List,SortedSet)【学习笔记】
|
11月前
|
NoSQL Redis 数据库
Redis 数据备份与恢复
10月更文挑战第20天
176 2
|
11月前
|
NoSQL Linux Redis
Docker学习二(Centos):Docker安装并运行redis(成功运行)
这篇文章介绍了在CentOS系统上使用Docker安装并运行Redis数据库的详细步骤,包括拉取Redis镜像、创建挂载目录、下载配置文件、修改配置以及使用Docker命令运行Redis容器,并检查运行状态和使用Navicat连接Redis。
1264 3
|
11月前
|
存储 Prometheus NoSQL
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
138 3