数据预处理-航线类型操作类型-更新规则|学习笔记

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 快速学习数据预处理-航线类型操作类型-更新规则

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理-航线类型操作类型-更新规则】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11655


数据预处理-航线类型操作类型-更新规则


内容介绍:

一、概述

二、更新规则的具体流程


一、概述

现在已经把数据的规则读取过了,即四种业务场景的规则已经读取完毕,流程中完成了读取数据分类规则到程序里,并添加到了广播变量中,接下需要在 redis 里面添加一个是否需要更新的标识,完成每一次的读取,每一次读取的标识需要放在 redis 里面,判断它是否需要分类。


二、更新规则的具体流程

1.到 redis 读取是否需要更新的标记

规则读取完毕后,属于第一次程序初始化阶段。在进行不断迭代的时候,需要判断四种情况的规则有没有发生变化,并进行说明和标记,依然需要利用 redis 到数据库。redis 实例:redis.get(),其中的 key 值可以在讲义中拷贝,代码为:redis.set( "NeedUpDateFilterRule" , "false"),读取到 redis 是否需要更新的标记

读取过后添加接收,代码为:

val

NeedupDateclassifyRule=redis.get("NeedupDateclassifyRule)

2.判断是否需要更新,若数据不为空并且数据转化成 Boolean 为 true 表示需要更新

这是第二次详细地演示如何读取更新规则,之后再遇到这种情况快速写过,如果读取过来的数据不能是空的,如果它不是空的,并且这个数据转化成布尔形式后为 true,就表示它需要更新,则依然可用。代码为:

if(INeedupDateFilterRule.isEmpty &&

NeedupDateFilterRule.toBoolean){

  • 而如果已经表明了需要更新,则需要在数据库当中重新读取新的

四种业务规则到程序中,代码为:

RuleMaps=AnalyzeRuleDB.queryRuleMapo

  • 将广播变量进行清空

RuleMaps=AnalyzeRuleDB.queryRuleMap()

  • 将新的分类规则重新加载到广播变量

broadcastRuleMaps.unpersist()

  • 将redis内是否需要更新规则的标识改为 false

broadcastRuleMaps=sc.broadcast(RuleMaps)

上述完成了把数据库里的规则读取到程序中,同时加载了广播变量,并且在 redis 里加了标记判断是否需要更新的流程。

3.将"NeedupDateclassifyRule"加到 redis 中

这个时候还没将"NeedupDateclassifyRule"加到 redis 中,选中并加载到 redis 里,找一个端口然后添加一个新的key,key 即为"NeedupDateclassifyRule"值,value 改为 false,默认情况下不需要更新。加完以后它读过的值是false,然后转化成 Boolean 变成 false,false 就不会继续下面的程序代码,直接跳过。

上面就是添加到广播变量并且判断它是否需要更新的实践。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
7月前
|
数据采集 数据挖掘 数据处理
数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
【4月更文挑战第3天】数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
337 2
|
25天前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
49 10
|
6月前
|
SQL DataWorks 数据处理
DataWorks产品使用合集之假设存在时间戳字段: 假设源表有一个记录数据更新时间的字段,如何设置过滤条件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
7月前
|
机器学习/深度学习 缓存 文字识别
印刷文字识别产品使用合集之标注阶段设定了两个独立的字段,但在返回的信息中却合并成了一个字段如何解决
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
数据采集 机器学习/深度学习 算法
②数据预处理之数据清理,数据集成,数据规约,数据变化和离散化
数据预处理之数据清理,数据集成,数据规约,数据变化和离散化
830 0
②数据预处理之数据清理,数据集成,数据规约,数据变化和离散化
|
机器人 API 区块链
Pionex派网量化网格交易机器人开发策略部署[源码执行规则示例]
Pionex派网量化网格交易机器人开发策略部署[源码执行规则示例]
|
PHP
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
68 0
|
数据采集 机器学习/深度学习 自然语言处理
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
205 0
|
数据可视化
【数据篇】34 # 如何处理多元变量?
【数据篇】34 # 如何处理多元变量?
161 0
【数据篇】34 # 如何处理多元变量?
|
SQL 数据采集 NoSQL
数据预处理-航线类型操作类型-读取规则到程序|学习笔记
快速学习数据预处理-航线类型操作类型-读取规则到程序
312 0
数据预处理-航线类型操作类型-读取规则到程序|学习笔记