项目背景介绍|学习笔记

简介: 快速学习项目背景介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段项目背景介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11580


项目背景介绍

 

课程计划:

1、介绍项目背景

2、项目总体概述

3、项目功能描述

4、项目架构

5、防爬规则

6、数据采集模块 -openresty 安装

7、lua 语法入门

8、openresty 案例入门

 

1、介绍项目背景

假设一个场景,国家规定的长假如春节、国庆,小长假如元旦,国庆安排准备去三亚旅游,飞机票,火车票等供不应求,便面临一种情况,即去三亚却没有票,这种情况下,即使换往其他地区游玩,可能会面临同种情况,我们通常会选择到特殊渠道进行购票,如黄牛等等,这就又面临一个问题,这类平台会赚取一定的差价。

黄牛有票的很大原因是通过爬取票务的手段不断的进行爬取票务,一般情况有人退票,黄牛会立刻占取该票务,通过提高票务来赚取差价。这种不断刷取票务的功能属于爬虫的一种。

很多订票网站在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。

大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时,也存在大量恶意占座的非法代理(黄牛)。通过不断的订座但不支付,利用这些虚占的座位进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。

为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具。

知识点1:项目背景

目标:了解爬虫项目的背景

各大售票网网站对外提供了购票,查票门户的同时,也吸引了大量的爬虫用户,爬虫会造成企业内的服务器负载较高,但是转化率极低,企业为了解决这个问题,需要一个反爬虫系统,进行爬虫的识别最终屏蔽爬虫。

相关文章
|
6月前
|
前端开发
背景
背景
32 4
|
数据可视化 前端开发 数据管理
电商项目之项目背景介绍|学习笔记
快速学习电商项目之项目背景介绍
电商项目之项目背景介绍|学习笔记
|
前端开发
前端知识案例学习8-设置渐变背景
前端知识案例学习8-设置渐变背景
76 0
前端知识案例学习8-设置渐变背景
|
存储 消息中间件 安全
一、RapidIO背景介绍(3)
一、RapidIO背景介绍(3)
301 0
一、RapidIO背景介绍(3)
一、RapidIO背景介绍(2)
一、RapidIO背景介绍(2)
176 0
一、RapidIO背景介绍(2)
|
消息中间件 缓存 算法
一、RapidIO背景介绍(1)
一、RapidIO背景介绍(1)
436 0
一、RapidIO背景介绍(1)
|
人工智能 达摩院 物联网
|
存储 SQL 大数据
背景介绍 | 学习笔记
快速学习 背景介绍
124 0
背景介绍 | 学习笔记
|
大数据 流计算 开发者
环境篇之项目背景介绍|学习笔记
快速学习环境篇之项目背景介绍
138 0
环境篇之项目背景介绍|学习笔记
|
Web App开发 Java 关系型数据库
专栏的创建背景
专栏的创建背景

相关实验场景

更多