开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第一阶段):网络流量日志埋点收集—确定收集信息和途径】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/693/detail/12173
网络流量日志埋点收集—确定收集信息和途径
内容简介
一、确定收集信息
二、小结
一、确定收集信息
我们首先要确定如何收集信息以及哪些信息,这个模块通常在企业中要在业务开展之前根据我们的业务需求来提前确定并且根据系统设计。
在确定哪些信息之前首先回到系统实现原理图来确定前后端的技术:在整个前端服务器上的核心技术是Javascript js,通过 js 埋点往后端进行数据的采集发送。后端接受请求要响应图片,处理逻辑和解析参数,所以使用njinx 技术,一个高性能的web服务器,而且是特殊版本的 njinx:使用 lua 语言做了嵌入式开发。
根据需要大概收集这些信息:
重点是这些字段信息通过何种途径获取,如果是 web server,则表明它可以通过 nginx 自带的属性获取,也就是说在这里我们收集的字段有些信息 nginx 作为 web 服务器它可以自动收集截取,只要使用它的语法规则把它提取即可。如果在一个信息字段表明的是 javascript,意味着这样的字段要通过 js 来收集,后面有备注怎么通过 js 收集。
在这个知识点之前我们回顾一下:在我们的一个页面上,我们的 html 页面,它是一个 document 对象,页面上常见的内置对象:document,window 和 navigate。所以这里有一些属性字段我们可以通过我们页面内置对象的属性获取,比如域名 URL 可以通过 document 对象获取。
如果想要收集其他信息,如商品标签,那么就要通过我们的语法规则 js 去截取。
二、小结
第一要确定收集的信息,企业通常在收集数据之前结合业务需求,分析的需求确定收集哪些信息的字段和收集的途径
途径有以下两种
- 可以通过 nginx 内置的日志收集功能获取到
- 可以通过页面上内置的对象常见的属性获取到
- 可以自定义编写js代码进行相关属性的收集