开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:功能介绍数据采集详解】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11584
功能介绍-数据采集详解
内容介绍
一、学习目标与学习顺序
二、数据采集详解
三、知识点总结
一、学习目标与学习顺序
目标:掌握了解企业端的功能模块
学习顺序:数据采集、数据预处理、实时计算、离线计算。
二、数据采集详解
(1) 数据采集的详细界面
在企业端的数据管理模块,点击数据采集,界面如下:
(2)数据采集的服务器监控目的
在数据采集流程中
图中所示三个方框代表三个服务器
在每台服务器上布置脚本采集数据
数据采集后,展现前端分为:服务器的 ip、当前活跃连接数、近三天采集数据量
假设布置三台服务器,前端界面展现为:
该图展现在数据采集的监控情况,表示服务器的 ip、当前活跃连接数、近三天采集数据量。
近三天采集数据量:展示今天,昨天和前三天采集数据的情况
只有数据管理模块的采集模块是针对企业内部服务器进行的监控,仅此唯一,其余模块均是基于客户数据进行监控,仅有数据采集时针对企业服务器进行监控。
(3)链路
图中三个方框代表三个服务器,同时代表三个链路,用来给用户查询与预定的服务器称为链路。
等同于大数据生涯系统的节点,包括数据节点与管理节点,统称节点
节点本质上为一台服务器
在书路处理流程中的三个链路,本质也属于服务器,
在采集阶段布置的应用服务器
(4)监控目的
主要是服务器在企业里面运行的过程当中,是否出现异常,服务器的存活量,服务器上的存活用户以及数据的采集情况。
三、知识点总结
数据采集模块
展示:展示了数据采集的数量(多链路)昨天、前天、前三天
监控:通过数据采集数量来监控lua采集脚本是否正常工作