网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述|学习笔记

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 快速学习网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段) 网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12225


网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述

1、按终端维度

数据中能够反映出用户终端信息的字段是 http user. agent。 User Agent 也简称UA它是一个特殊字符串头,是一种向访问网站提供所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。

2、按照终端维度进行数据的分析终端就是指上网最终的硬件设施是通过手机还是电脑通过什么样的浏览器上网

3、user_agent 简称 ua是一个非常标准的头信息在 http 请求上网时就会携带信息告诉服务器是什么平台什么样的版本什么浏览器什么内核按照终端维度分析统计来自于 windows 平台linux 平台wab 平台不同浏览器版本是多少需不需要针对相关的优化这时就需要根据终端进行相关的分组统计能够收集到终端的字符串但是如何解析是个挑战ua 是非常特殊的头信息有相关的约束标准如果不了解规则解析出来比较麻烦

User-Agent,Mozillg/5.0 (WindowsNt 6.3;WOW64) AppleWebKit/537.36 (KHTML,like Gecko)Chrome/58.0.3029.276 Safari/537.36

跟 windows 平台相关版本的内核版本在什么平台上比如谷歌浏览器58版本等这些信息按照什么标准进行提取或者写一个什么样的表达式提取涉及到 ua 的解析在网上查找 ua 在线版解析

image.png 

点击 ua 分析-在线工具

image.png

只要给它标准的 ua 信息就可以分析出来

image.png

上述UA信息就可以提取出以下的信息:

chrome 58. 0、浏览器 chrome、 浏览器版本58. 0、系统平台 windows浏览器内核 webkit

问题是在线解析工具是比人提供的免费开源工具如何在 hive 终端中分析就涉及到如何在项目中对 ua 进行解析ua解析涉及到第三方工具自己写代码解析难度很大

4、打开资料项目资料数据预处理点击 hive udf 解析 ua 的文档

image.png

文档介绍 ua 的概述

User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头 ,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

Mozilla/5.0 (Windows NT 6.1; wOW64) AppleWebKit/537.36 (KHTML,like Gecko)

Chrome/31.0.1650.63 Safari/537.36 180.173.196.29

想要从网站日志数据中分析一下操作系统、浏览器、版本号使用情况。可是 hive 中的函数不能直接解析useragent,于是只能写个 UDF 来解析。

市面上有开源解析的工具可以操作来自于 bitwalker 公司,US erAgentutils 工具通过工具只要传入标准的 ua 字符串格式语句就可以识别里面平台浏览器版本内核只要调查 api 就可以完成这是操作ua所需要的技术问题使用开源的免费的第三方库进行解析制定一个 UDF 函数就可以解析出在数据中字符串来自哪个平台哪个版本这是按照终端分析的理论推导分析出来后就可以把终端跟小时进行相关的组合统计来自于不同终端每个小时的 pv 和 ua 是多少在一年中来自于 windows 平台是多少谷歌浏览器多少火狐浏览器多少 进行各种指标的分析关键在于如何自定义函数解析出 ua 中相关的信息

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5月前
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
6月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
81 0
|
存储 运维 监控
基于FTP协议实现指定终端的日志自动上送方案
基于FTP协议实现指定终端的日志自动上送方案
|
运维 物联网 Linux
嵌入式linux之go语言开发(六)几行代码实现终端的远程日志诊断
嵌入式linux之go语言开发(六)几行代码实现终端的远程日志诊断
|
分布式计算
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
139 0
|
4天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
88 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
189 3
|
3月前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
129 3
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1611 14
|
26天前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
26 0
下一篇
无影云桌面