数据可视化+流程管理+系统管理|学习笔记

简介: 快速学习数据可视化+流程管理+系统管理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据可视化+流程管理+系统管理】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11587


数据可视化+流程管理+系统管理

 

内容介绍:

一、数据可视化

二、流程管理

三、系统管理

四、报表模块

 

一、数据可视化

图片1.png

1.离线分析

代码在后台运行,前端可以看到数据可视化界面,其中的数据对于反爬虫识别没有太大作用。但在企业需要某些指标时,需要将结果计算出来,通过9写入到 Mysql 中。

图片2.png

如国内转化率、国际转化率、排除爬虫与未排除爬虫、及国内、国际单程查询爬取频次,国内、国际双程爬取频次及爬虫查询航线排名。占座规律因数据涉及到顾客隐私,暂时无法分析。

 图片3.png

二、流程管理

制定一些规则,或者更多细节识别爬虫的规则并分类,只适用于某一特定阶段。

图片4.png

流程内部包含规则,每一规则都有一阈值,需要使用者自行设置。

5-1读取数据,5-2读取规则, 计算数据中的8个指标,与企业中配置好的8个指标阈值对比,若分数超过阈值,则为爬虫,若不超过,则不是爬虫。将爬虫数据写入 Redis 中,结束。

图片5.png

1.配置规则

企业配置好规则,数据传递过来后,再按照规则逐一计算出每个指标,再将计算出来的指标与企业配置的指标进行对比。若配置的指标超过了阈值,就拿各个规则后相应的分数表示,若未超过,则按实际需求选择。

2.配置策略

黑名单阈值:如图,若计算出来的分数经算法返回后超过了设置的阈值,则是爬虫,若小于, 则不是爬虫。

图片6.png

三、系统管理

企业内部用户管理界面

图片7.png

四、报表模块:

1.报表是通过离线进行统计的,离线的数据来源是通过流式处理打到 hdfs 的;

2.报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性;

 

相关文章
|
移动开发 Dart 前端开发
从架构到源码:一文了解Flutter渲染机制
Flutter从本质上来讲还是一个UI框架,它解决的是一套代码在多端渲染的问题。在渲染管线的设计上更加精简,加上自建渲染引擎,相比ReactNative、Weex以及WebView等方案,具有更好的性能体验。本文将从架构和源码的角度详细分析Flutter渲染机制的设计与实现。较长,同学们可收藏后再看。
8547 1
从架构到源码:一文了解Flutter渲染机制
|
存储 虚拟化 网络架构
带你读《企业私有云建设指南》之三:企业需求分析和私有云资源规划及设计
企业私有云建设需求旺盛,在架构设计和技术选型过程中应该结合自己公司的实际情况,因地制宜。本书给了很好的经验分享和思路,虽然是本技术书,但文笔流畅、平实细致,内容上也涉及了私有云建设的很多方面,值得细细阅读和品味!
|
存储 人工智能 自然语言处理
轻松改造公众号:10分钟实现智能客服自动化!
在阿里云平台上,仅需10分钟即可将微信公众号(订阅号)升级为AI智能客服,提供7x24小时客户支持,显著提升用户体验。方案包括四步:创建大模型问答应用、搭建微信公众号连接流、引入AI智能客服以及增加私有知识库,确保客服能精准回答复杂咨询,助力业务竞争力提升。整个过程简单快捷,在免费试用额度内费用为零。
855 7
轻松改造公众号:10分钟实现智能客服自动化!
【Qt 学习笔记】Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明
【Qt 学习笔记】Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明
1139 0
|
中间件
[Nestjs] 限制请求次数
在NestJS中限制请求次数,可以使用中间件来实现。以下是一种常见的方式: 1.创建一个限制请求次数的中间件: 创建一个名为 RateLimitMiddleware 的中间件,该中间件用于限制请求次数。在该中间件中,你可以使用使用第三方库(如 express-rate-limit、fastify-rate-limit)来实现请求限制逻辑,这些库提供了方便的方式来设置每个IP地址或其他标识符的请求次数限制。
492 0
技术经验分享:360浏览器截图快捷键设置
技术经验分享:360浏览器截图快捷键设置
758 0
技术经验分享:360浏览器截图快捷键设置
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之如何通过通用文本标记解决方案文档与PAI机器学习平台一起使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
设计模式 缓存 安全
设计模式 - 创建型模式_ 单例模式 Singleton Pattern
设计模式 - 创建型模式_ 单例模式 Singleton Pattern
214 0
|
数据采集 机器学习/深度学习 算法
【机器学习】数据清洗之识别异常点
【机器学习】数据清洗之识别异常点
876 1
|
文字识别
印刷文字识别产品使用合集之可以支持对哪些类型的票据进行识别支持数电发票的ocr识别吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。