数据预处理-链路统计-activeUserCount 计算|学习笔记

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 快速学习数据预处理-链路统计-activeUserCount 计算

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):数据预处理-链路统计-activeUserCount计算】学习笔记与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/670/detail/11633


数据预处理-链路统计-activeUserCount计算

 

内容介绍:

一、链路统计功能的目标

二、思路与关键代码

三、当前活跃连接的计算

 

一、链路统计功能的目标

目标:

企业需要实时了解每个链路的运行情况、数据采集量、活跃链接数等信息。

需在数据在采集时实时展现相关的信息在前台界面管理界面

 

二、思路与关键代码

1、统计每个批次每台服务器访问的总量

获取到一条数据,使用”#CS#"对数据进行切割,

获取切分后的第十个数据(角标是9), 将第十个数据和1,进行输出

调用 reducebykey (下划线+下划线)求去除这个批次每台服务器的放总量

2、统计每个批次每台服务器当前活跃链接数的量

获取到一条数据,使用”#CS#”对数据进行切割,

获取切分后的第十二个数据(角标是11)和第十个数据(角标是9).

将第十个数据和第十二个数据,进行输出

调用 reducebykey ((k,v)=>v) 求去每个服务器多个数据中的最后个数据

3.将两批数据写入 redis

在两个数据不为空的前体现,将两个数据转换成两个小的 map

封装最终要写入 redis 的数据(将两个小的 MAP 封装成-个大的 MAP)

在配置文件中读取出数据 key 的前缀,+时间戳(redis 中对数据的 key)

在配置文件中读取出数据的有效存储时间

将数据写入 redis

 

三、当前活跃连接的计算

//当前活跃连接数的计算

//1获取到条数据, 使用“#CS#” 对数据进行切割

Val activeUserCount=rdd. map(message=>{

var ip =

var activeUserCount=""

//切分数据

if (message.split( regex = "#CS#") . length>11){

//2获取切分后的第十二 个数据(角标是11)和第十个数据(角标是9)

//截取当前活跃连接数

activeUserCount-message .split( regex = "#CS#")(11)

//截取 IP

ip=message. split( regex= "#CS#")(9)

//3将第十个数据和第十二个数据,进行输出

(ip,activeuserCount)

}).reduceByKey(k,V)=>v)//输出最后一个数据

计算完 activeUserNumber和server_ip n ,

下一步就是写入 redis。服务器的IP与访问的次数有了,只要有了时间戳就可以写入 redis。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
2月前
|
机器学习/深度学习 数据采集 运维
数据分布检验利器:通过Q-Q图进行可视化分布诊断、异常检测与预处理优化
Q-Q图(Quantile-Quantile Plot)是一种强大的可视化工具,用于验证数据是否符合特定分布(如正态分布)。通过比较数据和理论分布的分位数,Q-Q图能直观展示两者之间的差异,帮助选择合适的统计方法和机器学习模型。本文介绍了Q-Q图的工作原理、基础代码实现及其在数据预处理、模型验证和金融数据分析中的应用。
430 11
数据分布检验利器:通过Q-Q图进行可视化分布诊断、异常检测与预处理优化
|
9月前
|
前端开发 数据可视化 算法
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
|
9月前
|
数据可视化 数据挖掘
R语言分段回归数据数据分析案例报告
R语言分段回归数据数据分析案例报告
|
9月前
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断2
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
|
9月前
|
负载均衡 网络虚拟化
链路聚合实验
链路聚合实验
|
数据采集 机器学习/深度学习 数据处理
类别数据处理:你必须知道的技巧与方法
类别数据处理:你必须知道的技巧与方法
194 0
|
数据挖掘
怎么理解数据分析、维度和指标?
怎么理解数据分析、维度和指标?
|
数据采集 数据可视化 大数据
数据清洗_剪除反常数据_统计分布|学习笔记
快速学习数据清洗_剪除反常数据_统计分布
139 0
数据清洗_剪除反常数据_统计分布|学习笔记
|
数据采集 消息中间件 分布式计算
数据预处理-链路统计-serverCoverCount计算|学习笔记
快速学习数据预处理-链路统计-serverCoverCount计算
数据预处理-链路统计-serverCoverCount计算|学习笔记
|
运维
《百度大规模时序指标自动异常检测实战》电子版地址
百度大规模时序指标自动异常检测实战
102 0
《百度大规模时序指标自动异常检测实战》电子版地址