第七阶段总结|学习笔记

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 快速学习第七阶段总结

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段第七阶段总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11742


第七阶段总结


内容介绍:

一、设置任务监控

二、测试数据改装程序

三、统计报表


一、设置任务监控

(1)爬虫识别是什么?

爬虫识别,数据识别过程进行监控

(2)、需求

对当前streaming任务设置任务监控

(3)、代码

注意生产过程怎么获得数据

通过下面的代码:

// val sparkDriverHost       =Sc.getConf.get(‘spark.org.apache.hadoop.yam.server.webproxy.amfilter.AmlpFilter.paramPROXY-URI-BAES”)

//监控信息页面路径+/proxy/+应用id+/metrics/json

//val url=s”${sparkDriverHost}/metrics/json”

如图:

image.png

对爬虫识别进行监控,方法引入,具体代码就是黄色代码,生产集群如何获取数据,就是这样获取的

爬虫识别过程思路与之一致


二、测试数据改装程序

(1)、报表模块加载

目标:实现离线指标的计算过程

(2)、加载数据,注册成表

(3)、需求

加载 kafka 数据清洗后的数据(过滤掉 html 等),加载爬虫数据,将数据注册成表

(4)代码

实际上就是收集的数据,将数据加入一个变量,读到一个变量加一个变量,类似于行号,如果行号50去一个0,我们就换一个代码,根据不同变量换代码,改变数据的形式。

行号对应的数据就会根据编程好的程序自行换行和整理。

因为数据不一样,所以我们要换成一样的,这样才能进行离线分析,这样我们用这个代码就可以实现。


三、离线报表的统计

(1)、离散指标统计

1、数据源:

Kafka 通过数据处理后写道 hafs 的结构化数据

通过 relecompute 计算后的爬虫数据,数据写了 redis

2、数据加载

每天的23:59分的定时任务开始

加载 Kafka 写道 hdfs 的数据,数据是以 yyyyMMddHH 这样的文件保存的,需要读取 yyyyMMddHH 里面的所有小时的数据加载redis的黑名单数据

3、任务流程

创建 sparkcontext

获取当前时间的年月日,拼凑成:

hdfs:

//192.168.56.151.9000/csair/data/rule-black-ist/yyyyMMdd

通过 redis 加载黑名单数据

进行报表质变的计算,计算的结果写道数据库

4、代码:

找到离线分析程序,在 Request 中有一些字段,再往后读取数据,再往后,如果是集群上面,就在集群上读取,如果在本地就在本地直接读取就好。

将字段进行对应关系匹配,数据有了,Spider-Ip 有了,我们可以得到两张表格,通过表得到纯爬虫数据,再通过自定义函数,判断我们的数据到达哪个阶段。

业务上面分为查询、预定、结算。类似于这样的数据,通过BIL匹配到哪个数据就到哪个阶段,再根据计算好的数据,计算国内、国际转换率等等一系列转换率。

结果计算好了,就将其填入对应的地方就好。指标计算完之后,就可以进行离散分析了。

(2)制作离线报表

注意,国内查询,写入的时候要告知。

如果是国际的数据就需要改变编码,也就是0变1,实际上就是根据实际情况改变0和1即可。

相关文章
|
4月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
6月前
|
传感器 监控 安全
SID 2025上的天马,用“好屏”技术重构产业叙事
SID国际显示周是全球显示行业风向标,2025年展会汇聚Micro-LED、柔性OLED等前沿技术,天马作为深耕显示领域40余年的企业,展示了多项创新成果。其自研SLOD技术降低OLED功耗与提升寿命,HOI三合一光感功能屏融合多核心功能,以及“光木隐视”技术实现隐藏显示与防窥效果。天马通过技术、标准、生态“三位一体”战略,推动显示行业从功能驱动转向体验驱动,重新定义人机交互方式,彰显中国企业在显示领域的全球影响力。
196 7
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
4月前
|
达摩院 安全 Anolis
Anolis OS 23 架构支持家族新成员:Anolis OS 23.3 版本及 RISC-V 预览版发布
Anolis OS 23.3在保障基础功能持续演进、完善安全漏洞的修复的同时,实现了对 RISC-V 的初步支持。
|
7月前
|
弹性计算 机器人 应用服务中间件
AppFlow支持Qwen3开源版本调用
近期,Qwen3正式发布并开源全部8款“混合推理模型”,包括两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)和六个Dense模型。目前,AppFlow已支持上述所有模型调用,您可在钉钉或微信等多渠道使用这些模型满足业务需求。本文将介绍如何配置及集成这些模型至钉钉机器人和企业微信应用中,包括创建应用、设置权限、生成连接流以及配置相关参数的详细步骤。完成配置后,用户可通过钉钉或企业微信直接与Qwen3应用互动交流。
246 6
AppFlow支持Qwen3开源版本调用
|
6月前
|
数据采集 监控 安全
数据治理起步难?Dataphin内置模板来帮你
数据治理冷启动常因沟通协调多、流程长且配置繁琐而受阻。Dataphin 提供多种内置模板,涵盖数据标准码表(如行政区划、度量单位等)、安全分类分级(如金融、能源行业规范)、数据质量规则(40+常用规则)及识别特征(如手机号、身份证号),助力企业快速构建治理框架,提升效率,加速数据战略实施。
179 0
|
8月前
|
弹性计算 人工智能 运维
阿里云操作系统控制台实战评测:提升云资源管理与监控效率
阿里云操作系统控制台是一款集成了可视化管理、问题分析和智能助手等功能的运维工具,适用于企业和个人用户。它通过统一界面监控和优化系统运行,结合AI与自动化技术,提升操作系统的使用效率和稳定性。用户无需专业运维知识即可完成系统维护和故障诊断。主要功能包括进程热度追踪、系统诊断等,提供直观的数据展示和详细的分析报告,帮助用户快速定位并解决问题。建议进一步完善操作文档和优化数据可视化效果,以提升用户体验。
203 0
|
Rust 网络协议 安全
Rust在系统编程中的案例分享
Rust在系统编程中的案例分享
233 10
|
机器学习/深度学习 人工智能 算法
|
存储 数据安全/隐私保护 Windows
7-Zip 的使用技巧
7-Zip 的使用技巧