开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:项目背景介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11580
项目背景介绍
课程计划:
1、介绍项目背景
2、项目总体概述
3、项目功能描述
4、项目架构
5、防爬规则
6、数据采集模块 -openresty 安装
7、lua 语法入门
8、openresty 案例入门
1、介绍项目背景
假设一个场景,国家规定的长假如春节、国庆,小长假如元旦,国庆安排准备去三亚旅游,飞机票,火车票等供不应求,便面临一种情况,即去三亚却没有票,这种情况下,即使换往其他地区游玩,可能会面临同种情况,我们通常会选择到特殊渠道进行购票,如黄牛等等,这就又面临一个问题,这类平台会赚取一定的差价。
黄牛有票的很大原因是通过爬取票务的手段不断的进行爬取票务,一般情况有人退票,黄牛会立刻占取该票务,通过提高票务来赚取差价。这种不断刷取票务的功能属于爬虫的一种。
很多订票网站在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。
大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时,也存在大量恶意占座的非法代理(黄牛)。通过不断的订座但不支付,利用这些虚占的座位进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。
为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具。
知识点1:项目背景
目标:了解爬虫项目的背景
各大售票网网站对外提供了购票,查票门户的同时,也吸引了大量的爬虫用户,爬虫会造成企业内的服务器负载较高,但是转化率极低,企业为了解决这个问题,需要一个反爬虫系统,进行爬虫的识别最终屏蔽爬虫。