开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段): 网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/696/detail/12225
网站流量日志分析--统计分析--多维统计分析--终端维度--UA 概述
1、按终端维度
数据中能够反映出用户终端信息的字段是 http user. agent。 User Agent 也简称UA,它是一个特殊字符串头,是一种向访问网站提供所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。
2、按照终端维度进行数据的分析,终端就是指上网最终的硬件设施,是通过手机还是电脑通过什么样的浏览器上网。
3、user_agent 简称 ua,是一个非常标准的头信息,在 http 请求上网时就会携带信息告诉服务器是什么平台,什么样的版本,什么浏览器,什么内核,按照终端维度分析,统计来自于 windows 平台,linux 平台,wab 平台,不同浏览器版本是多少,需不需要针对相关的优化,这时就需要根据终端进行相关的分组统计,能够收集到终端的字符串,但是如何解析是个挑战,ua 是非常特殊的头信息,有相关的约束标准,如果不了解规则解析出来比较麻烦。
User-Agent,Mozillg/5.0 (WindowsNt 6.3;WOW64) AppleWebKit/537.36 (KHTML,like Gecko)
Chrome/58.0.3029.276 Safari/537.36
跟 windows 平台相关,版本的内核,版本在什么平台上,比如谷歌浏览器58版本等。这些信息按照什么标准进行提取,或者写一个什么样的表达式提取,涉及到 ua 的解析,在网上查找 ua 在线版解析。
点击 ua 分析-在线工具。
只要给它标准的 ua 信息,就可以分析出来。
上述UA信息就可以提取出以下的信息:
chrome 58. 0、浏览器 chrome、 浏览器版本58. 0、系统平台 windows、浏览器内核 webkit
问题是在线解析工具是比人提供的免费开源工具,如何在 hive 终端中分析,就涉及到如何在项目中对 ua 进行解析,ua解析涉及到第三方工具,自己写代码,解析难度很大。
4、打开资料,项目资料,数据预处理,点击 hive udf 解析 ua 的文档。
文档介绍 ua 的概述。
User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头 ,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
Mozilla/5.0 (Windows NT 6.1; wOW64) AppleWebKit/537.36 (KHTML,like Gecko)
Chrome/31.0.1650.63 Safari/537.36 180.173.196.29
想要从网站日志数据中分析一下操作系统、浏览器、版本号使用情况。可是 hive 中的函数不能直接解析useragent,于是只能写一个 UDF 来解析。
市面上有开源解析的工具可以操作,来自于 bitwalker 公司,US erAgentutils 工具,通过工具只要传入标准的 ua 字符串格式语句,就可以识别里面平台,浏览器,版本,内核,只要调查 api 就可以完成,这是操作ua所需要的技术问题,使用开源的免费的第三方库进行解析,制定一个 UDF 函数就可以解析出在数据中字符串来自哪个平台,哪个版本,这是按照终端分析的理论推导。分析出来后就可以把终端跟小时进行相关的组合,统计来自于不同终端每个小时的 pv 和 ua 是多少,在一年中来自于 windows 平台是多少,谷歌浏览器多少,火狐浏览器多少 ,进行各种指标的分析,关键在于如何自定义函数解析出 ua 中相关的信息。