数据预处-理用例流程介绍|学习笔记

简介: 快速学习数据预处-理用例流程介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):数据预处-理用例流程介绍】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/670/detail/11622


数据预处-理用例流程介绍

 

内容介绍:

一、数据预处理模块

二、模块分类处理流程

 

一、数据预处理模块

下图为数据预处理模块,由统计、脱敏、拆分、分类、解析、结构化、推送、监控等组成,形成了一个完整的处理流程。

 image.png

 

二、模块分类处理流程

image.png

首先数据读取把数据读取过来,也就是下图中3-1的过程(在kalfka中读取数据到程序中),也就是打在kalfka中的数据。

image.png

然后进行第一个模块链路统计,然后进行最核心部分预处理就是清洗、脱敏、拆分、分类、解析、历史爬虫结构化。

然后重新发回 kafka,也就是第四阶段。最后进行系统监控也就是从开始读取到最后的推送的过程进行监控。

image.png

监控分别统计出来有多少访问量,当前连接数是多少:

image.png

还有链路统计要展现在部署服务器名称、当前活跃连接数、最近三天采集数据量。

image.png

相关文章
|
2月前
|
自然语言处理 搜索推荐 测试技术
阿里云大模型的应用例
阿里云大模型在智能信息处理领域取得显著成果,以深言科技的“深言达意”产品为例。该平台基于阿里云PAI高效训练大规模模型,利用云端GPU集群实现资源最优利用,达到近100%的GPU计算使用率。产品通过自研大模型并针对词句检索任务微调,解决特定场景的信息处理需求。结合大语言模型与检索能力,“深言达意”支持自然语言交互,并能精准定位用户查询,避免知识性错误。深言科技还通过数据反馈循环不断优化模型,提升服务个性化与准确性。在阿里云的支持下,该平台展示了高效的信息处理与交互能力,为用户提供创新智能信息服务。
|
6月前
|
测试技术
『测试基础』| 如何理解测试用例管理和缺陷管理?
『测试基础』| 如何理解测试用例管理和缺陷管理?
214 1
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
923 0
数据预处理总结—用例及流程|学习笔记
|
消息中间件 数据库 RocketMQ
生成预订单流程分析1|学习笔记
快速学习生成预订单流程分析1
137 0
生成预订单流程分析1|学习笔记
|
测试技术 数据库 数据安全/隐私保护
手把手带你设计接口自动化测试用例(二):根据接口信息设计测试用例
上一篇文章 手把手带你设计接口自动化测试用例(一):提取接口信息并分析 详细介绍了如何提取并分析登录、发布、修改、删除、查询等接口信息,这篇文章来看一下如何根据接口信息设计测试用例。 ZrLog 系统接口测试用例的字段可以设计为 3 个部分,分别是主测试用例的字段(重要)、配置信息的字段、执行结果记录的字段。下面分别介绍这 3 部分字段的名称和含义。
299 0
手把手带你设计接口自动化测试用例(二):根据接口信息设计测试用例
|
存储 关系型数据库 MySQL
手把手带你设计接口自动化测试用例(三):建立数据库实例和测试用例表
手把手带你设计接口自动化测试用例(三):建立数据库实例和测试用例表
379 0
手把手带你设计接口自动化测试用例(三):建立数据库实例和测试用例表
|
JSON 前端开发 测试技术
手把手带你设计接口自动化测试用例(一):提取接口信息并分析
手把手带你设计接口自动化测试用例(一):提取接口信息并分析
557 0
手把手带你设计接口自动化测试用例(一):提取接口信息并分析
|
消息中间件 数据库 RocketMQ
生成预订单流程分析2|学习笔记
快速学习生成预订单流程分析2
|
前端开发 测试技术 数据安全/隐私保护