功能介绍补充|学习笔记

简介: 快速学习功能介绍补充

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段功能介绍补充】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11588


功能介绍-补充

 

内容介绍:

一、链路统计:数据采集

二、系统监控功能的实际效果

三、爬虫实时效率

四、性能监控的实际效果

五、基础采集字段

六、数据可视化模块

 

一、链路统计:

数据采集图片1.png

图片2.png

多链路的统计效果


二、系统监控功能的实际效果:

图片3.png

三、爬虫实时效率

图片4.png


四、性能监控的实际效果:

图片5.png


五、基础采集字段:

数据采集 Lua 脚本中需要采集的数据。

 图片6.png

 

Request

请求的连接

Request Method

请求的方法

Remote Address

客户端地址

Request parameter

请求参数(包括 Form 表单)

Content-Type

Content-Type请求头字段

Cookie

请求 cookie

Server Address

服务器地址

Referer

跳转来源

User-Agent

用户终端浏览器信息

Time-Iso8601

访问时间 ISO 格式

Time_local

访问时间

                        表 2 数据清洗新增字段

有无关键 Cookie

需结合实际数据来看

单次访问携带的 Cookie 个数

 

Referer 是否伪造

查看该 IP 的历史记录

该 IP 是否属于高频的 IP 段

对统计字段进行查询

Cookie 中某些数据可以得到,某些数据不能得到。如:乘机人个人信息。

 

六、数据可视化模块

图片7.png

内置报表包括购票转化率、查询爬取规律、占座规律、爬虫对查定的影响、爬虫对系统稳定性影响5种:
购票转化即购票流量与总流量之比
查询爬取规律包括爬虫活跃时间段、爬取频次等;
占座规律可分析出爬虫非法占座情况,包括路线(航线)、日期、车次(航班)、座位、价格等
查定比影响建立在收集全流量数据基础上,以查询流量除以下单流量得来
爬虫对系统稳定性影响通过各链路流转等情况进行问接体现

相关文章
组合计数及补充
组合计数及补充
68 0
|
机器学习/深度学习
【知识补充】
【知识补充】
47 0
|
存储 编译器 C#
C#基础补充
C#基础补充
63 0
|
6月前
|
小程序 JavaScript Java
阅读小程序|基于微信阅读网站小程序的系统设计与实现(源码+数据库+文档)
阅读小程序|基于微信阅读网站小程序的系统设计与实现(源码+数据库+文档)
75 0
|
11月前
【博客项目】—用户修改功能(十一)
【博客项目】—用户修改功能(十一)
|
存储 数据可视化 Ubuntu
bcftools学习笔记丨软件简介、安装方式、使用方法、核心功能、参数解释等一文速览
bcftools学习笔记丨软件简介、安装方式、使用方法、核心功能、参数解释等一文速览
|
编译器 程序员 C语言
C++入门(内容补充)
之前给大家更新了一系列关于C++的基础语法,那么今天小编再给大家进行部分内容的补充,然后我们马上就会进入类有关内容的介绍。
73 0
|
JavaScript Java Scala
编写规则 注意事项和手册|学习笔记
快速学习编写规则 注意事项和手册。
100 0
编写规则 注意事项和手册|学习笔记
|
Kubernetes 容器
k8s补充
k8s补充
|
移动开发 Java Android开发
《阿里巴巴Android开发手册》v1.0.1更新,优化部分内容和示例代码
春节余味尚未消,我们为移动开发者准备了一份迟到的新年礼物——《阿里巴巴Android开发手册》,继《阿里巴巴Java开发手册》之后,阿里巴巴开发规范家族又添一丁,「阿里巴巴Android开发规范」认证考试也同步上线。
45624 0