项目背景介绍|学习笔记

简介: 快速学习项目背景介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段项目背景介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11580


项目背景介绍

 

课程计划:

1、介绍项目背景

2、项目总体概述

3、项目功能描述

4、项目架构

5、防爬规则

6、数据采集模块 -openresty 安装

7、lua 语法入门

8、openresty 案例入门

 

1、介绍项目背景

假设一个场景,国家规定的长假如春节、国庆,小长假如元旦,国庆安排准备去三亚旅游,飞机票,火车票等供不应求,便面临一种情况,即去三亚却没有票,这种情况下,即使换往其他地区游玩,可能会面临同种情况,我们通常会选择到特殊渠道进行购票,如黄牛等等,这就又面临一个问题,这类平台会赚取一定的差价。

黄牛有票的很大原因是通过爬取票务的手段不断的进行爬取票务,一般情况有人退票,黄牛会立刻占取该票务,通过提高票务来赚取差价。这种不断刷取票务的功能属于爬虫的一种。

很多订票网站在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。

大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时,也存在大量恶意占座的非法代理(黄牛)。通过不断的订座但不支付,利用这些虚占的座位进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。

为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具。

知识点1:项目背景

目标:了解爬虫项目的背景

各大售票网网站对外提供了购票,查票门户的同时,也吸引了大量的爬虫用户,爬虫会造成企业内的服务器负载较高,但是转化率极低,企业为了解决这个问题,需要一个反爬虫系统,进行爬虫的识别最终屏蔽爬虫。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
城市道路设施及道路安全隐患数据集分享(适用于YOLO系列深度学习分类检测任务)
本数据集含1.3万张城市道路图像,涵盖井盖、坑洞、减速带等5类安全隐患,YOLO格式标注,已划分训练/验证/测试集,适用于YOLOv5-v10等目标检测模型,助力智能巡检、自动驾驶与智慧交通研究。(239字)
261 7
|
8月前
|
机器学习/深度学习 并行计算 算法
PINN驱动的三维声波波动方程求解(Matlab代码实现)
PINN驱动的三维声波波动方程求解(Matlab代码实现)
576 7
|
5月前
|
缓存 边缘计算 监控
CDN加速原理与配置优化
本文深入解析CDN加速原理与配置优化,涵盖边缘节点、回源机制与缓存策略三大核心。通过域名配置、智能压缩、安全防护及监控分析等环节详解,结合电商大促实战案例,提供提升访问速度、降低源站压力的完整优化方案,助力企业实现高效、安全的内容分发。
199 0
|
SQL Web App开发 Java
java.sql.SQLException: Unsupported character encoding 'utf8mb4'.
版权声明:本文为 testcs_dn(微wx笑) 原创文章,非商用自由转载-保持署名-注明出处,谢谢。 https://blog.csdn.net/testcs_dn/article/details/76199827 四月 12, 2017 3:47:52 下午 org.
5250 0
|
人工智能 前端开发 测试技术
探索软件测试中的自动化框架选择与优化策略####
本文深入剖析了当前主流的自动化测试框架,通过对比分析各自的优势、局限性及适用场景,为读者提供了一套系统性的选择与优化指南。文章首先概述了自动化测试的重要性及其在软件开发生命周期中的位置,接着逐一探讨了Selenium、Appium、Cypress等热门框架的特点,并通过实际案例展示了如何根据项目需求灵活选用与配置框架,以提升测试效率和质量。最后,文章还分享了若干最佳实践和未来趋势预测,旨在帮助测试工程师更好地应对复杂多变的测试环境。 ####
420 4
|
存储 API C++
LabVIEW将现有数据文件映射至TDMS数据文件格式
LabVIEW将现有数据文件映射至TDMS数据文件格式
269 2
|
开发者
移动端UI名词 - AxureMost
该文档介绍了多种UI组件的分类和功能,包括按钮、图标、宫格等基础组件,头像、徽标、轮播图等数据展示类组件,复选框、日期选择器、输入框等数据输入类组件,以及对话框、加载、消息通知等反馈类组件。此外,还涵盖了下拉菜单、导航栏、分页器等导航类组件。每个组件都有具体的应用场景和作用,帮助开发者快速构建界面。
566 28
|
人工智能
无影AI云电脑上新满血版DeepSeek R1!附免费使用教程
无影AI云电脑上新满血版DeepSeek R1!附免费使用教程
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型:智能海洋监测与保护
使用Python实现深度学习模型:智能海洋监测与保护
436 1

热门文章

最新文章