数据预处理-链路统计-serverCoverCount计算|学习笔记

简介: 快速学习数据预处理-链路统计-serverCoverCount计算

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):数据预处理-链路统计-serverCoverCount计算】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/670/detail/11632


数据预处理-链路统计-serverCoverCount计算

 

内容介绍:

一、原始数据

二、数据实现

 

一、原始数据

实例将要打入 kafka 的数据

local message = time_ local.."#CS#".. request . .”#CS#".. request_ method . . " #CS# '

content type.."#CS#"..request_ body"#CS#". . http_ referer 。. ' #CS#". . remote_ addr'#CS#"

http- user agent . ."#CS#".. time_ iso8601 . ."#CS#". . server addr .."#CS#".. http- cookie. . "#CS#". activeUserNumber

image.png


二、数据实现

//消费数据

kafkavalue.foreachRDD(rdd=>{

//链路统计功能

Linkcount.linkcount()

由于 LinkCount 是红色,

需要进行创建:

Project->src->main->scala->dataprocess->businessprocess->new->Scala Class

Name:LinkCount  Kind:Object

需要进行引入,引入在这个方法里面没有,所以需要创建一下,这个方法里面要做链路统计功能需要有数据,数据就是 rdd,把 rdd 传进去,让 idea 主动创建Linkcount.

根据前面的流程需求,需要统计的是服务器的名称,服务器的名称直接截过来就可以,需要统计当前活跃连接数,服务器的 IP 以及它的数值,所以一个是当前活跃连接数,还有就是服务器IP出现的次数,即服务器的 count

先把服务器的IP拿出来,再把衣拿出来,然后 reducebykey,再加入 redis 的时候,加入时间段

具体流程:

//实现链路统计功能

object LinkCount {

//链路统计代码

def linkCount(rdd: RDD[String]): Unit = {

//每个服务器本批次数据访问了多少次

//1.遍历 rdd 获取到每条数据

val serverCount=rdd . map( message=>{

注意:

此处用 map 还是 foreach 取决于要不要返回结果map需要返回结果,foreach 是直接去操作,不需要返回结果

//2.抽取出服务器的 IP

var ip=""

if (message.split( regex= "#CS#", limit= -1).1ength>9){

ip=message.split( regex= "#CS#", limit= -1)(9)

在原始数据中,服务器ip(server_addr)是第十个,当前活跃连接数(activeUserNumber) 是第十二个,第十个数据角标9,第十个数据角标是11。

//3.将ip 和1返回

(ip,1)

}).reduceByKey(_ .+_ )

//4.reducebykey 计算出ip 和总数

//5.当前活跃连接数的计算

/6.将it算出来的两个结果写 Aredis 

相关文章
|
机器学习/深度学习 存储 算法
时序数据特征工程浅析
内容摘要特征工程是指将原始数据标记处理为价值密度更高,更容易解释目标问题的工程化过程,在面向大量原始采集的数据集统计分析,尤其是对于高通量持续采集、且价值密度较低的时序数据更是如此。时序数据特征工程则是指利用有效方法,将原始时序数据转化为带有含义分类标签的序列数据片段或特征数值,例如,我们可以将指定时间窗口序列数据标识为特定异常关联数据,并保留平均、最大、最小值作为该序列的特征值。这样我们就可以围
3307 0
时序数据特征工程浅析
|
7月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7月前
|
负载均衡 网络虚拟化
链路聚合实验
链路聚合实验
|
数据采集 数据可视化 数据挖掘
数据抽样技术全面概述
抽样是研究和数据收集中不可或缺的方法,能够从更大数据中获得有意义的见解并做出明智的决定的子集。
519 2
|
算法 数据挖掘 索引
白话Elasticsearch48-深入聚合数据分析之 Percentiles Aggregation-percentiles百分比算法以及网站访问时延统计及Percentiles优化
白话Elasticsearch48-深入聚合数据分析之 Percentiles Aggregation-percentiles百分比算法以及网站访问时延统计及Percentiles优化
123 0
|
数据采集 数据可视化 大数据
数据清洗_剪除反常数据_统计分布|学习笔记
快速学习数据清洗_剪除反常数据_统计分布
125 0
数据清洗_剪除反常数据_统计分布|学习笔记
|
存储 SQL Oracle
如何快速实现多指标计算
如何快速实现多指标计算
336 0
|
数据采集 消息中间件 JSON
数据预处理-系统监控-创建计算方法及监控实现思路|学习笔记
快速学习数据预处理-系统监控-创建计算方法及监控实现思路
169 0
数据预处理-系统监控-创建计算方法及监控实现思路|学习笔记
|
机器学习/深度学习 数据挖掘
数据分析:5个数据相关性指标
相似性度量是许多数据分析和机器学习任务中的重要工具,使我们能够比较和评估不同数据片段之间的相似性。有许多不同的指标可用,每个指标各有利弊,适用于不同的数据类型和任务。
286 0
|
数据采集 消息中间件 监控
数据预处理-链路统计实现思路|学习笔记
快速学习数据预处理-链路统计实现思路
数据预处理-链路统计实现思路|学习笔记