5-网站日志分析案例项目回顾与点击流数据分析项目介绍

简介: 文章目录5-网站日志分析案例项目回顾与点击流数据分析项目介绍一、网站日志流量数据分析1.背景:2.日志种类3.分析指标4.日志流量数据分析系统

5-网站日志分析案例项目回顾与点击流数据分析项目介绍

参考:

https://www.kancloud.cn/java-jdxia/big-data/606445

https://www.cnblogs.com/rmxd/p/11455810.html


一、网站日志流量数据分析

1.背景:

在互联网应用中,日志是非常重要的数据,因为互联网项目往往要求是7*24不间断运行的,所以能获取到监控系统运行的相关日志数据并进行分析就显得非常重要。网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据,进行分析,从而得到有价值的信息,并基于这些信息对网站进行改进。

2.日志种类

①系统日志:开发人员在系统后台代码中增加的日志输出语句,如果是Java语言,通常采用log4j或slfj框架技术进行一些日志语句的输出,但这类输出信息并不全面,不能细致地把系统运行信息进行输出。

②埋点日志:在现有系统集成相应代码,捕捉系统特定的事件,输出一些相关的信息。


3.分析指标

①PV(Page View)

访问量:也叫点击量,即一天之内整个网站中的页面被访问的次数(对同一个页面重复访问也记为不同的PV)

②UV(Uniquer Visitor)

独立访客数:即一天之内访问网站的人数(同一个人在一天之内访问网站多次,也只能算一个UV)

③VV(Visit View)

会话总数:即一天之内会话总的数量,所谓一次会话,指的是从访问第一个页面开始,会话开始,直到访问最后一个页面结束,关闭所有页面,会话结束;会话可以认为在访问第一个页面时开始,访问所有页面完成并关闭或超过指定时长没有后续访问都认为会话结束。

④BR(Bounce Rate)

跳出率:即一天之内跳出的会话总数占所有会话总数的比率。所谓跳出指的是一个会话中只访问过一个页面会话就结束了。跳出会话占全部会话的比率,称为跳出率。这个指标在评价推广活动的效果时非常的有用。

⑤NewIP

NewIP:即新增IP总数,一天内访问网站的所有IP去重后,检查有多少是在历史数据中未出现过的,这些数量指的就是新增的IP总数,这个指标可以一定程度上体现网站新用户的增长情况。

⑥NewCust

NewCust:即新增独立访客数,一天之内访问网站的人中,有多少人是在历史记录中从来没有出现过的。这个指标可以从另一个角度体现网站用户增长的情况。

⑦AvgTime

AvgTime:平均访问时长,所谓一个会话的访问时长,是指一个会话结束的时间—会话开始时间。将一天之内所有会话的访问时长求平均值,就是平均访问时长,这个指标可以体现出网站对用户的粘性大小。

⑧AvgDeep

AvgDeep:平均访问深度,所谓一个会话的访问深度,是指一个会话中的所有源地址去重后计数得到的指标。将一天之内的所有会话的访问深度求平均值就是平均访问深度。这个指标可以体现出网站对用户的粘性大小。

4.日志流量数据分析系统

二、点击流日志数据分析

1.点击流和网站日志

点击流(Click Stream)是指用户在网站上持续访问的轨迹。众所周知,用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。目前点击流数据的获取方法有很多,例如通过JS进行事件捕获、发布客户端应用进行采集、网站日志分析等等,本文仅以网站日志分析为例进行阐述。


点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。关于点击流数据更多系统的解释,推荐阅读《点击流数据仓库》一书。


点击流数据是网站运营分析的主要数据依据。基于用户的点击流数据可以进行诸如用户行为、用户忠诚度、用户价值、系统优化等一系列的分析。那么用户的点击流数据都包含哪些?我们该如何获得这些点击流数据呢?让我们先了解一下网站的构成以及用户访问网站的一些基本原理。首先,网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,我们就可以确定网页被依次访问的顺序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。通过Sessionid与Referrers的结合,我们就可以确定每个用户依次访问网站的网页顺序。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。

2、点击流流程

点击流:点击流(Click Stream)是指用户在网站上持续访问的轨迹,形成点击事件,它会记录用户浏览站点的整个过程。



3.原始数据样式:


4.页面点击流模型Pageviews表

session为一个用户,用户对网站的每次访问。


5.点击流模型Visits表

(按session聚集的页面访问信息)


这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

三、如何进行数据分析

网站数据分析整体来说是一个内涵非常丰富的体系,其整体过程是一个金字塔结构:


改善网站(电商、社交、电影、小说)的运营,获取更高投资回报率(ROI)

1.网站流量质量分析

流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入



2.网站流量多维度细分

细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。


3.网站内容及导航分析

对于所有网站来说,页面都可以被划分为三个类别:

  • 导航页
  • 功能页
  • 内容页

首页和列表页都是典型的导航页;

站内搜索页面、注册表单页面和购物车页面都是典型的功能页,

而产品详情页、新闻和文章页都是典型的内容页。

比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:


第一个问题:访问者从导航页进入,在还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。

第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑在内容类页面提交交叉信息推荐。


4.网站转化及漏斗分析

所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;

对于转化渠道,主要进行两部分的分析:

访问者的流失和迷失

4.1 助力和流失

造成流失的原因很多,如:

不恰当的商品或活动推荐

对支付环节中专业名词的解释、帮助信息等内容不当


4.2迷失


造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策


四、流量分析常见指标

1、常见指标

基础分析(PV,IP,UV)

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。

IP(独立IP):指独立IP数。00:00-24:00内相同IP地址之被计算一次。

UV(独立访客):即UniQue Visitor,访问您网站的一台电脑客户端为一个访客。 00:00-24:00内相同的客户端只被计算一次。

趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。


2、来源分析


来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。

搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。

最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

五、整体技术架构流程

  • 1、数据采集
  • 2、数据预处理
  • 3、数据入库
  • 4、数据分析
  • 5、数据展示



  • nginx:反代理服务器
  • 生成日志文件
  • shell脚本
  • flume
  • 日志数据采集到hdfs
  • hive
  • 实现sql语句本质就是mr程序
  • 数据统计及分析
  • sqoop
  • 数据导入数据出
  • 将数据导出到关系型数据库
  • 数据的可视化处理
  • springboot+vcharts生成图表
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析案例-汽车客户信息数据可视化分析
数据分析案例-汽车客户信息数据可视化分析
99 0
|
2月前
|
数据可视化 架构师 数据挖掘
数据分析案例-数据科学相关岗位薪资可视化分析
数据分析案例-数据科学相关岗位薪资可视化分析
52 0
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析案例-BI工程师招聘岗位信息可视化分析
数据分析案例-BI工程师招聘岗位信息可视化分析
59 0
|
3月前
|
监控 Android开发 C语言
深度解读Android崩溃日志案例分析2:tombstone日志
深度解读Android崩溃日志案例分析2:tombstone日志
83 0
|
4月前
|
存储 安全 数据挖掘
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)
带你读《Apache Doris 案例集》——06 Apache Doris 助力中国联通万亿日志数据分析提速10倍(1)
|
2月前
|
SQL 分布式计算 数据可视化
数据分析案例-数据分析师岗位招聘信息可视化
数据分析案例-数据分析师岗位招聘信息可视化
59 0
|
2月前
|
数据可视化 搜索推荐 数据挖掘
数据分析案例-顾客购物数据可视化分析
数据分析案例-顾客购物数据可视化分析
98 0
|
6天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
7天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。
|
7天前
|
存储 数据可视化 数据挖掘
实战案例:Pandas在金融数据分析中的应用
【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中,一家投资机构使用Pandas加载、清洗股票历史价格数据,删除无关列并重命名,将日期设为索引。接着,数据被可视化以观察价格走势,进行基本统计分析了解价格分布,以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。

热门文章

最新文章