功能介绍补充|学习笔记

简介: 快速学习功能介绍补充

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段功能介绍补充】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11588


功能介绍-补充

 

内容介绍:

一、链路统计:数据采集

二、系统监控功能的实际效果

三、爬虫实时效率

四、性能监控的实际效果

五、基础采集字段

六、数据可视化模块

 

一、链路统计:

数据采集图片1.png

图片2.png

多链路的统计效果


二、系统监控功能的实际效果:

图片3.png

三、爬虫实时效率

图片4.png


四、性能监控的实际效果:

图片5.png


五、基础采集字段:

数据采集 Lua 脚本中需要采集的数据。

 图片6.png

 

Request

请求的连接

Request Method

请求的方法

Remote Address

客户端地址

Request parameter

请求参数(包括 Form 表单)

Content-Type

Content-Type请求头字段

Cookie

请求 cookie

Server Address

服务器地址

Referer

跳转来源

User-Agent

用户终端浏览器信息

Time-Iso8601

访问时间 ISO 格式

Time_local

访问时间

                        表 2 数据清洗新增字段

有无关键 Cookie

需结合实际数据来看

单次访问携带的 Cookie 个数

 

Referer 是否伪造

查看该 IP 的历史记录

该 IP 是否属于高频的 IP 段

对统计字段进行查询

Cookie 中某些数据可以得到,某些数据不能得到。如:乘机人个人信息。

 

六、数据可视化模块

图片7.png

内置报表包括购票转化率、查询爬取规律、占座规律、爬虫对查定的影响、爬虫对系统稳定性影响5种:
购票转化即购票流量与总流量之比
查询爬取规律包括爬虫活跃时间段、爬取频次等;
占座规律可分析出爬虫非法占座情况,包括路线(航线)、日期、车次(航班)、座位、价格等
查定比影响建立在收集全流量数据基础上,以查询流量除以下单流量得来
爬虫对系统稳定性影响通过各链路流转等情况进行问接体现

相关文章
|
6月前
|
C++
组合计数及补充
组合计数及补充
41 0
|
6月前
|
机器学习/深度学习
【知识补充】
【知识补充】
24 0
|
7月前
|
存储 编译器 C#
C#基础补充
C#基础补充
41 0
|
机器学习/深度学习 文字识别 数据挖掘
Visionpro从小白到大佬,第一章了解工具名称和用途
Visionpro从小白到大佬,第一章了解工具名称和用途
2402 0
Visionpro从小白到大佬,第一章了解工具名称和用途
|
8天前
|
数据采集 人工智能 自然语言处理
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
|
7月前
|
存储 安全 编译器
C++:入门学习C++,它在C的基础上做了哪些修改?
C++:入门学习C++,它在C的基础上做了哪些修改?
|
9月前
|
存储 数据可视化 Ubuntu
bcftools学习笔记丨软件简介、安装方式、使用方法、核心功能、参数解释等一文速览
bcftools学习笔记丨软件简介、安装方式、使用方法、核心功能、参数解释等一文速览
|
11月前
|
编译器 程序员 C语言
C++入门(内容补充)
之前给大家更新了一系列关于C++的基础语法,那么今天小编再给大家进行部分内容的补充,然后我们马上就会进入类有关内容的介绍。
44 0
|
Java 编译器 Scala
函数使用注意事项和细节3|学习笔记
快速学习函数使用注意事项和细节3。
60 0
|
JavaScript Java Scala
编写规则 注意事项和手册|学习笔记
快速学习编写规则 注意事项和手册。
76 0
编写规则 注意事项和手册|学习笔记