开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第六阶段:爬虫识别-Redis 爬虫数据备份-效果】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/674/detail/11732
爬虫识别-Redis 爬虫数据备份-效果
效果
完成爬虫数据写到 Redis 的同时也写到 HDFS 中的代码之后,实际效果如下:要将数据写入到 hdfs 中,就需要有一个 hdfs 集群。在环境当中,有160客户端,100、110、120三个节点,三个节点既是 kafka,又是 JK,除了以上角色之外,还是集群。进入到上两级目录中,存在Hadoop。进入到 Hadoop中,在后台打开haddop。运行代码的时候,首先需要将数据的预处理运行,再将爬虫运行,此时会自动写到Redis,同时也会存储到 HDFS 中。以上是运行起来会出现的效果。查看是否开启,效果如下:
此时查看 Bin 目录的内容:
[root@node01 sbin]# hadoop fs -1s /
此时存在TMP和user目录。运行成功之后,会存在以下目录:
hdfs: //192.168.100.100: 8020/csair/ data/rule-black-Ipst/
嵌套之中存在年月日时。
此时,Hadoop 已经成功。运行程序,首先执行预处理程序,接下来执行爬虫程序,接下来运行爬虫识别程序,识别时同时调用写入 HTFS 的过程,此时没有报错,切换到HDFS中查看,多了一个目录,需要尽快查看其中的内容。从web界面中查看:
192.168.100.100.50070
效果如下:
以上是 Name node 节点。点击查看目录,找到根目录。查看根目录如下:
以上目录就是集群当中配置的目录。时中数据如下:
进行数据下载:
虽然是 packet 格式,但能够看懂。下载的数据如下:
具体数据如下:
在文件中存在前缀、IP、规则名称、流程名称、时间戳、 Key 和 value, Value 是一个分数,加命中的规则和日期,也就是 Redis 对应的 Key、IP、流程 ID、时间。HDFS 中数据在不断增加。此时是从浏览器中查看。说明数据一边写入到Redis的同时也写到 HDFS 中,说明数据预处理的代码成功。此时完成了黑名单数据实时存储到 HDFS 中,用于 Redis 数据恢复。将其拆分到数据入库中,第一步是黑名单datafream 备份到 HDFS,第二步是添加黑名单 datafream,备份到 array buffer,第三步是增加黑名单数据,实时存储到 HDFS 功能。