网站流量日志埋点收集—原理实现分析|学习笔记

简介: 快速学习网站流量日志埋点收集—原理实现分析

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第一阶段)网站流量日志埋点收集—原理实现分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/693/detail/12172


网站流量日志埋点收集—原理实现分析


内容简介

一、原理分析

二、小结


一、原理分析

要想去埋点收集用户的行为数据,该如何设计一个系统。

结合我们上节内容学习的雏形图,我们现在学习应该真正可以用来收集用户行为数据的埋点系统,该如何去理清它。

image.png

再次强调:埋点指我们的页面上预先埋上一段 js 代码然后用户的行为去触发它来进行用户数据的收集,只不过为了后期更好维护,为了性能做了某种改变,某种性能的优化。

图片剖析:

我们去收集用户的行为数据,用户不管是通过移动端还是其他访问网站都需要通过浏览器 broswer 发起请求,所以浏览器相当于客户进入网站交互的终端。

浏览器去访问请求页面,所以 page 是用户访问的页面(待收集数据的页面),埋点代码是写在此页面上的,红色粗框是待搜集数据的页面,埋点代码的页面。

如果把 js 写死在页面则耦合性太强,不利于后期的维护,所以我们要通过改变,把收集数据的 js 单独拉取出变成文件 javascript(collect client data),绿色小框是真正收集数据的 js。因为 js 必须在页面上才能执行,所以需要把 js 引至页面,所以需要通过 src 属性引入加载至页面上,这样就完成了前端的一个设计(红色大框是前端服务器)。

当我们把绿色的 js 收集至页面上之后,它就开始进行我们数据的收集。那么收集的数据需要发往另一台服务器collect.itcast.cn,这时候我们单独部署一台服务器来接收请求,就涉及如何把前端服务器的数据发送至另一台机器上。

这时已经不能使用 js 直接发送了,所以需要伪装请求图片<img src=”collect.itcast.cn/log.gif> , 重点不是这张图片,而是图片后面采集的数据,不管收集多少参数都可以拼接在请求的后面。所以前端 js 收集用户行为数据把数据以参数的形式拼接在请求图片的 url 后面,发送至指定的服务器。

这样就完成了前端的工作,接下来逻辑,功能来到后端。作为后端,别人发起请求需要做什么?需要接收请求和解析参数(重中之重),响应图片(log.gif1*1)以及响应 cookie(涉及用户行为追踪问题,cookie 是在浏览器端用来标识用户访问信息的,也就是说当用户第一次来时,响应生成一个 cookie,后续再访问同样的网站,就会自动携带cookie,除非 cookie 被强制删除,这样就可以根据 cookie 值判断这个日志,行为是属于哪个用户)

image.png


二、小结

上述图片就是企业要想实现上线进行用户行为埋点收集的原理图

当中重点考虑了两个性能点,第一个是为了便于后期数据收集 js 的维护,我们把它和页面做了解耦合,未写死在页面上。

第二个是为了降低一台服务器的压力,单独部署一台服务器专门用于数据的接收,所以以发送图片的形式解决跨域问题。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
存储 运维 监控
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
|
8月前
|
监控 安全 搜索推荐
使用EventLog Analyzer进行日志取证分析
EventLog Analyzer助力企业通过集中采集、归档与分析系统日志及syslog,快速构建“数字犯罪现场”,精准追溯安全事件根源。其强大搜索功能可秒级定位入侵时间、人员与路径,生成合规与取证报表,确保日志安全防篡改,大幅提升调查效率,为执法提供有力证据支持。
323 0
|
10月前
|
监控 安全 NoSQL
【DevOps】Logstash详解:高效日志管理与分析工具
Logstash是ELK Stack核心组件之一,具备强大的日志收集、处理与转发能力。它支持多种数据来源,提供灵活的过滤、转换机制,并可通过插件扩展功能,广泛应用于系统日志分析、性能优化及安全合规等领域,是现代日志管理的关键工具。
1519 0
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
1816 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
11月前
|
人工智能 运维 监控
Aipy实战:分析apache2日志中的网站攻击痕迹
Apache2日志系统灵活且信息全面,但安全分析、实时分析和合规性审计存在较高技术门槛。为降低难度,可借助AI工具如aipy高效分析日志,快速发现攻击痕迹并提供反制措施。通过结合AI与学习技术知识,新手运维人员能更轻松掌握复杂日志分析任务,提升工作效率与技能水平。
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
4941 32
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
600 9
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
1185 55