开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:企业端功能概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11581
企业端功能概述
内容介绍
一、企业端各功能概述
二、实际界面展示
三、课堂总结
一、企业端各功能概述
(1)项目概述的目的
有关项目总体的概述,该知识点的目标为了解在企业当中项目在识别和展现的过程中有那些模块或者功能
(2)系统功能类别与作用
数据管理模块化 |
1.支持对数据采集和分类的配置 和管理 2.支持对数据各种处理的配置和管理 |
流程管理模块 |
1. 支持流程定义和可配置管理 2.根据监控模块反应的情况,系统自动执行相应的策略 3.支持人工执行相应的策略 |
策略管理模块 |
1. 支持策略的定义和配置的管理 2.配置爬虫和占座行为配置成功后的系统自动执行相应的策略 3.关联爬虫和占座行为与机器学习算法的选择和算法参数的阈值 |
规则管理模块 |
1. 支持规则定义和可配置管理 2.支持人工定制爬虫和占座过滤规则 3.支持制定规则参数阈值 |
实时监控模块 |
1.对系统所采集的各种数据和特征进行实时监控和深度分析 2.通过模型分析预测,智能识别和判断爬虫活动的性质 3.通过监控系统反馈的稳定性和负数情况,间接反映可能的爬虫活动情况 |
数据可视化管理模块 |
1.将人工难以识别的数据定制图标或图形化,利于从中发现规律和价值 2.提供各种内置标准报表(转化率、爬取规律、占座规律、爬虫对查定比及系统稳定性的影响) |
二、实际界面展示
(1)用户端界面展示
查询以去哪网为例,在浏览器点击去哪网网站进行客户端
客户端:即为普通客户提供的查询的界面。
点击查询与预定功能
各大网站均有自己的用户端,如去哪网、携程。网页版或者手机端
企业端。
(2)企业端界面展示
当收到客户的查询与预定的动作,需要将这些信息录入后台,进行分析转化,把处理完的结果展现到内部的平台里面。
以去哪网客户端界面为例
当服务器运行,产生的数据量,运行的状态,计算的数量与速度,以及可视化的报表均由该界面展现。
(3)企业端功能讲解
1.数据管理模块分为数据采集和数据处理模块
数据采集:分为部署服务器、当前活跃连接数、最近三天采集数据量
数据处理:分为国内国际的查询和预定。与客户端的流程相呼应
数据可视化:领导想看的报表,包括国内国际的转化率、全部用户、普通用户、代购用户以及排除爬虫和未排除爬虫相应的数据,还有国内国际单程和双程的查询频次。
流程管理:支持流程的自定义和可配置管理,自定义可进行添加的动作,然后保存或者对已经存在的流程进行修改,添加,启用或未启用的动作。
流程内容还包括各种规则,可选择是否启用该规则,可编辑规则阈值的操作。
系统管理规则,不做管理,是对反爬虫项目外部界面的管理。
系统监控功能可分以下几个界面,是对查询的预处理阶段进行的监控。
这是一个曲线图,显示实时流量转发情况。
这个会变颜色,绿色是正常,红色是异常。
以下为柱状图,显示各链路流量转发情况。
性能监控:是对查询识别阶段的一个效率,是实时的展现。
具体界面如下:
三、课堂总结
本节课了解企业端各个模块,以及对模块功能的概述。