数据预处理-航线类型操作类型-更新规则|学习笔记

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 快速学习数据预处理-航线类型操作类型-更新规则

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理-航线类型操作类型-更新规则】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11655


数据预处理-航线类型操作类型-更新规则


内容介绍:

一、概述

二、更新规则的具体流程


一、概述

现在已经把数据的规则读取过了,即四种业务场景的规则已经读取完毕,流程中完成了读取数据分类规则到程序里,并添加到了广播变量中,接下需要在 redis 里面添加一个是否需要更新的标识,完成每一次的读取,每一次读取的标识需要放在 redis 里面,判断它是否需要分类。


二、更新规则的具体流程

1.到 redis 读取是否需要更新的标记

规则读取完毕后,属于第一次程序初始化阶段。在进行不断迭代的时候,需要判断四种情况的规则有没有发生变化,并进行说明和标记,依然需要利用 redis 到数据库。redis 实例:redis.get(),其中的 key 值可以在讲义中拷贝,代码为:redis.set( "NeedUpDateFilterRule" , "false"),读取到 redis 是否需要更新的标记

读取过后添加接收,代码为:

val

NeedupDateclassifyRule=redis.get("NeedupDateclassifyRule)

2.判断是否需要更新,若数据不为空并且数据转化成 Boolean 为 true 表示需要更新

这是第二次详细地演示如何读取更新规则,之后再遇到这种情况快速写过,如果读取过来的数据不能是空的,如果它不是空的,并且这个数据转化成布尔形式后为 true,就表示它需要更新,则依然可用。代码为:

if(INeedupDateFilterRule.isEmpty &&

NeedupDateFilterRule.toBoolean){

  • 而如果已经表明了需要更新,则需要在数据库当中重新读取新的

四种业务规则到程序中,代码为:

RuleMaps=AnalyzeRuleDB.queryRuleMapo

  • 将广播变量进行清空

RuleMaps=AnalyzeRuleDB.queryRuleMap()

  • 将新的分类规则重新加载到广播变量

broadcastRuleMaps.unpersist()

  • 将redis内是否需要更新规则的标识改为 false

broadcastRuleMaps=sc.broadcast(RuleMaps)

上述完成了把数据库里的规则读取到程序中,同时加载了广播变量,并且在 redis 里加了标记判断是否需要更新的流程。

3.将"NeedupDateclassifyRule"加到 redis 中

这个时候还没将"NeedupDateclassifyRule"加到 redis 中,选中并加载到 redis 里,找一个端口然后添加一个新的key,key 即为"NeedupDateclassifyRule"值,value 改为 false,默认情况下不需要更新。加完以后它读过的值是false,然后转化成 Boolean 变成 false,false 就不会继续下面的程序代码,直接跳过。

上面就是添加到广播变量并且判断它是否需要更新的实践。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
8月前
|
数据采集 数据挖掘 数据处理
数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
【4月更文挑战第3天】数据清洗的主要步骤包括**理解数据、处理重复值、处理空缺值、处理异常值、数据标准化和数据收集
367 2
|
2月前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
128 56
|
7月前
|
SQL DataWorks 数据处理
DataWorks产品使用合集之假设存在时间戳字段: 假设源表有一个记录数据更新时间的字段,如何设置过滤条件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
31 1
|
8月前
行为关系支持配置码表:让标签加工与理解更直观!
该功能解决了在行为分析和标签处理中,编码字段理解困难的问题。它允许标签开发人员在配置行为关系时直接关联码表,便于识别字段含义,同时,也让业务人员在查看标签时能直接看到真实含义,提高工作效率。此更新简化了工作流程,提升了标签资产的理解度。
行为关系支持配置码表:让标签加工与理解更直观!
|
8月前
|
机器学习/深度学习 缓存 文字识别
印刷文字识别产品使用合集之标注阶段设定了两个独立的字段,但在返回的信息中却合并成了一个字段如何解决
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
7月前
|
SQL 数据库 UED
条件筛选大作战:解析Where与Having的区别与应用
条件筛选大作战:解析Where与Having的区别与应用
71 0
|
8月前
|
数据采集 SQL 监控
分析重复数据通常涉及以下步骤,以确保对重复项的来源和性质有深入理解
【4月更文挑战第2天】分析重复数据通常涉及以下步骤,以确保对重复项的来源和性质有深入理解
83 1
|
8月前
第六章 利用数组处理批量数据
第六章 利用数组处理批量数据
42 0
|
8月前
|
供应链 搜索推荐
偏好类标签支持自定义统计方式,标签场景覆盖更广
在个性化营销场景,零售商必须理解顾客的行为才能更准确的预测客户需求,优化库存管理、制定营销策略,并提供个性化的购物体验,然而偏好类标签的加工不仅仅是简单的属性出现频次或最大值的统计,Dataphin V4.0版本新增了自定义统计的方式加工偏好标签,通过简单的配置即可完成复杂的标签加工场景。
|
PHP
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
74 0