开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:功能介绍补充】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11588
功能介绍-补充
内容介绍:
一、链路统计:数据采集
二、系统监控功能的实际效果
三、爬虫实时效率
四、性能监控的实际效果
五、基础采集字段
六、数据可视化模块
一、链路统计:
数据采集
多链路的统计效果
二、系统监控功能的实际效果:
三、爬虫实时效率
四、性能监控的实际效果:
五、基础采集字段:
数据采集 Lua 脚本中需要采集的数据。
Request |
请求的连接 |
Request Method |
请求的方法 |
Remote Address |
客户端地址 |
Request parameter |
请求参数(包括 Form 表单) |
Content-Type |
“Content-Type”请求头字段 |
Cookie |
请求 cookie |
Server Address |
服务器地址 |
Referer |
跳转来源 |
User-Agent |
用户终端浏览器信息 |
Time-Iso8601 |
访问时间 ISO 格式 |
Time_local |
访问时间 |
表 2 数据清洗新增字段
有无关键 Cookie |
需结合实际数据来看 |
单次访问携带的 Cookie 个数 |
|
Referer 是否伪造 |
查看该 IP 的历史记录 |
该 IP 是否属于高频的 IP 段 |
对统计字段进行查询 |
Cookie 中某些数据可以得到,某些数据不能得到。如:乘机人个人信息。
六、数据可视化模块
内置报表包括购票转化率、查询爬取规律、占座规律、爬虫对查定的影响、爬虫对系统稳定性影响5种:
购票转化率即购票流量与总流量之比
查询爬取规律包括爬虫活跃时间段、爬取频次等;
占座规律可分析出爬虫非法占座情况,包括路线(航线)、日期、车次(航班)、座位、价格等
查定比影响建立在收集全流量数据基础上,以查询流量除以下单流量得来
爬虫对系统稳定性影响通过各链路流转等情况进行问接体现。