5-网站日志分析案例项目回顾与点击流数据分析项目介绍

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 文章目录5-网站日志分析案例项目回顾与点击流数据分析项目介绍一、网站日志流量数据分析1.背景:2.日志种类3.分析指标4.日志流量数据分析系统

5-网站日志分析案例项目回顾与点击流数据分析项目介绍

参考:

https://www.kancloud.cn/java-jdxia/big-data/606445

https://www.cnblogs.com/rmxd/p/11455810.html


一、网站日志流量数据分析

1.背景:

在互联网应用中,日志是非常重要的数据,因为互联网项目往往要求是7*24不间断运行的,所以能获取到监控系统运行的相关日志数据并进行分析就显得非常重要。网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据,进行分析,从而得到有价值的信息,并基于这些信息对网站进行改进。

2.日志种类

①系统日志:开发人员在系统后台代码中增加的日志输出语句,如果是Java语言,通常采用log4j或slfj框架技术进行一些日志语句的输出,但这类输出信息并不全面,不能细致地把系统运行信息进行输出。

②埋点日志:在现有系统集成相应代码,捕捉系统特定的事件,输出一些相关的信息。


3.分析指标

①PV(Page View)

访问量:也叫点击量,即一天之内整个网站中的页面被访问的次数(对同一个页面重复访问也记为不同的PV)

②UV(Uniquer Visitor)

独立访客数:即一天之内访问网站的人数(同一个人在一天之内访问网站多次,也只能算一个UV)

③VV(Visit View)

会话总数:即一天之内会话总的数量,所谓一次会话,指的是从访问第一个页面开始,会话开始,直到访问最后一个页面结束,关闭所有页面,会话结束;会话可以认为在访问第一个页面时开始,访问所有页面完成并关闭或超过指定时长没有后续访问都认为会话结束。

④BR(Bounce Rate)

跳出率:即一天之内跳出的会话总数占所有会话总数的比率。所谓跳出指的是一个会话中只访问过一个页面会话就结束了。跳出会话占全部会话的比率,称为跳出率。这个指标在评价推广活动的效果时非常的有用。

⑤NewIP

NewIP:即新增IP总数,一天内访问网站的所有IP去重后,检查有多少是在历史数据中未出现过的,这些数量指的就是新增的IP总数,这个指标可以一定程度上体现网站新用户的增长情况。

⑥NewCust

NewCust:即新增独立访客数,一天之内访问网站的人中,有多少人是在历史记录中从来没有出现过的。这个指标可以从另一个角度体现网站用户增长的情况。

⑦AvgTime

AvgTime:平均访问时长,所谓一个会话的访问时长,是指一个会话结束的时间—会话开始时间。将一天之内所有会话的访问时长求平均值,就是平均访问时长,这个指标可以体现出网站对用户的粘性大小。

⑧AvgDeep

AvgDeep:平均访问深度,所谓一个会话的访问深度,是指一个会话中的所有源地址去重后计数得到的指标。将一天之内的所有会话的访问深度求平均值就是平均访问深度。这个指标可以体现出网站对用户的粘性大小。

4.日志流量数据分析系统

二、点击流日志数据分析

1.点击流和网站日志

点击流(Click Stream)是指用户在网站上持续访问的轨迹。众所周知,用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。目前点击流数据的获取方法有很多,例如通过JS进行事件捕获、发布客户端应用进行采集、网站日志分析等等,本文仅以网站日志分析为例进行阐述。


点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。关于点击流数据更多系统的解释,推荐阅读《点击流数据仓库》一书。


点击流数据是网站运营分析的主要数据依据。基于用户的点击流数据可以进行诸如用户行为、用户忠诚度、用户价值、系统优化等一系列的分析。那么用户的点击流数据都包含哪些?我们该如何获得这些点击流数据呢?让我们先了解一下网站的构成以及用户访问网站的一些基本原理。首先,网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,我们就可以确定网页被依次访问的顺序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。通过Sessionid与Referrers的结合,我们就可以确定每个用户依次访问网站的网页顺序。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。

2、点击流流程

点击流:点击流(Click Stream)是指用户在网站上持续访问的轨迹,形成点击事件,它会记录用户浏览站点的整个过程。



3.原始数据样式:


4.页面点击流模型Pageviews表

session为一个用户,用户对网站的每次访问。


5.点击流模型Visits表

(按session聚集的页面访问信息)


这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

三、如何进行数据分析

网站数据分析整体来说是一个内涵非常丰富的体系,其整体过程是一个金字塔结构:


改善网站(电商、社交、电影、小说)的运营,获取更高投资回报率(ROI)

1.网站流量质量分析

流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入



2.网站流量多维度细分

细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。


3.网站内容及导航分析

对于所有网站来说,页面都可以被划分为三个类别:

  • 导航页
  • 功能页
  • 内容页

首页和列表页都是典型的导航页;

站内搜索页面、注册表单页面和购物车页面都是典型的功能页,

而产品详情页、新闻和文章页都是典型的内容页。

比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:


第一个问题:访问者从导航页进入,在还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。

第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑在内容类页面提交交叉信息推荐。


4.网站转化及漏斗分析

所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;

对于转化渠道,主要进行两部分的分析:

访问者的流失和迷失

4.1 助力和流失

造成流失的原因很多,如:

不恰当的商品或活动推荐

对支付环节中专业名词的解释、帮助信息等内容不当


4.2迷失


造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策


四、流量分析常见指标

1、常见指标

基础分析(PV,IP,UV)

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。

IP(独立IP):指独立IP数。00:00-24:00内相同IP地址之被计算一次。

UV(独立访客):即UniQue Visitor,访问您网站的一台电脑客户端为一个访客。 00:00-24:00内相同的客户端只被计算一次。

趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。


2、来源分析


来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。

搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。

最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

五、整体技术架构流程

  • 1、数据采集
  • 2、数据预处理
  • 3、数据入库
  • 4、数据分析
  • 5、数据展示



  • nginx:反代理服务器
  • 生成日志文件
  • shell脚本
  • flume
  • 日志数据采集到hdfs
  • hive
  • 实现sql语句本质就是mr程序
  • 数据统计及分析
  • sqoop
  • 数据导入数据出
  • 将数据导出到关系型数据库
  • 数据的可视化处理
  • springboot+vcharts生成图表
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
20天前
|
机器学习/深度学习 数据采集 数据可视化
通义灵码2.0实现数据分析小项目
本文介绍了使用通义灵码2.0实现一个数据分析小项目的全过程。从数据清洗、特征分布可视化到构建和评估多个机器学习模型,详细展示了每一步的操作和结果。通过简单的描述和提问,通义灵码2.0能够自动生成并优化代码,极大地简化了开发流程。最终,项目成功完成了数据的分析和预测模型的构建,验证了通义灵码2.0的强大功能和易用性。
通义灵码2.0实现数据分析小项目
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
94 2
|
7月前
|
数据采集 存储 数据挖掘
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
本文介绍了一个基于Python的书旗网小说网站数据采集与分析系统,通过自动化爬虫收集小说数据,利用Pandas进行数据处理,并通过Matplotlib和Seaborn等库进行数据可视化,旨在揭示用户喜好和市场趋势,为图书出版行业提供决策支持。
546 6
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
|
3月前
|
机器学习/深度学习 数据采集 DataWorks
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
4月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势
|
7月前
|
数据采集 数据可视化 关系型数据库
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
本文介绍了一个基于Python的穷游网酒店数据采集与可视化分析系统,通过爬虫技术自动抓取酒店信息,并利用数据分析算法和可视化工具,提供了全国主要城市酒店的数量、星级、价格、评分等多维度的深入洞察,旨在为旅行者和酒店经营者提供决策支持。
243 4
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
|
7月前
|
JSON 数据挖掘 API
案例 | 用pdpipe搭建pandas数据分析流水线
案例 | 用pdpipe搭建pandas数据分析流水线
65 2
|
7月前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。
288 2
|
7月前
|
前端开发 Java JSON
Struts 2携手AngularJS与React:探索企业级后端与现代前端框架的完美融合之道
【8月更文挑战第31天】随着Web应用复杂性的提升,前端技术日新月异。AngularJS和React作为主流前端框架,凭借强大的数据绑定和组件化能力,显著提升了开发动态及交互式Web应用的效率。同时,Struts 2 以其出色的性能和丰富的功能,成为众多Java开发者构建企业级应用的首选后端框架。本文探讨了如何将 Struts 2 与 AngularJS 和 React 整合,以充分发挥前后端各自优势,构建更强大、灵活的 Web 应用。
88 0
|
7月前
|
SQL 数据采集 算法
【电商数据分析利器】SQL实战项目大揭秘:手把手教你构建用户行为分析系统,从数据建模到精准营销的全方位指南!
【8月更文挑战第31天】随着电商行业的快速发展,用户行为分析的重要性日益凸显。本实战项目将指导你使用 SQL 构建电商平台用户行为分析系统,涵盖数据建模、采集、处理与分析等环节。文章详细介绍了数据库设计、测试数据插入及多种行为分析方法,如购买频次统计、商品销售排名、用户活跃时间段分析和留存率计算,帮助电商企业深入了解用户行为并优化业务策略。通过这些步骤,你将掌握利用 SQL 进行大数据分析的关键技术。
373 0

热门文章

最新文章