基于Hadoop部署实践对网站日志分析（大数据分析案例）（二）-阿里云开发者社区

基于Hadoop部署实践对网站日志分析（大数据分析案例）（二）

2022-07-08 811

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于Hadoop部署实践对网站日志分析（大数据分析案例）

3.4 根据结果文件结构建立hive数据库表

3.4.1在结果文件上创建分区表

- 表名（techbbs）

- 表类型（External）

- 表字段

字段名字段类型描述

ip string 访客IP地址

atime string 访问时间

url string 访问页面

- 表分区字段（logdate string）

- 表分隔符（TERMINATED BY ‘,’)

- 表路径（LOCATION /xxx/xxx）

首先把清洗后的文件放在我们自己设定的文件夹里面

参数解释：MV 移动或者剪切使用格式：MV 源文件目标路径最后也可以对其进行重命名，如果不加/那么就是重命名，加了就是把其粘贴在该路径下面

hdfs dfs -mkdir -p /user/hadoop/data/datas
hdfs dfs -mkdir -p /user/hadoop/data/datas1
hdfs dfs -mv /user/hadoop/files30/part-00000 /user/hadoop/data/datas/30
hdfs dfs -mv /user/hadoop/files31/part-00000 /user/hadoop/datas/datas1/31
hdfs dfs -ls -R /user/hadoop/data

在hive里面进行创建表格，这里创建一个分区表，create external table 表名（字段字段类型…..）partitioned by (分区字段字段类型) rowformat delimted fields terminated by ‘分割符’，location 数据路径的祖文件夹（不包含数据的直接存储文件夹）

建表语句:

CREATE EXTERNAL TABLE whw(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/user/hadoop/data';

截图：

3.4.2 按日期创建分区

建立分区语句

Alter table 表名 add partition（分区字段=‘分区标签’）location 数据路径（数据文件的父文件夹）

ALTER TABLE whw ADD PARTITION(logdate='2013_05_30') LOCATION '/user/hadoop/data/datas';

ALTER TABLE whw ADD PARTITION(logdate='2013_05_31') LOCATION '/user/hadoop/data/datas1';

截图：

数据导入成功！

3.5 使用Hive对结果表进行数据分析统计

3.5.1 PV量

创建一个表使用create，这里我们把查询出来的数据，直接创建一个视图，select count(1) 统计数量，这里的语法意思就是，统计日期为2013-05-30（2013-05-31）的日志记录数量，也就是PV（浏览量）

CREATE TABLE whw_pv_2013_05_30 AS SELECT COUNT(1) AS PV FROM whw WHERE logdate='2013_05_30';

CREATE TABLE whw_pv_2013_05_31 AS SELECT COUNT(1) AS PV FROM whw WHERE logdate='2013_05_31';

3.5.2 注册用户数

这里使用一个hive里面的函数：instr(源字符串，匹配字符串)，通过给定一个字符串，然后利用匹配字符串的整体，返回匹配字符串的第一个字符在源字符串的索引位置。所以该语句就是有两个条件，分别是日期和个函数所匹配到的结果，如果有这个网址那么就是返回一个索引（大于0的）

CREATE TABLE whw_reguser_2013_05_30 AS SELECT COUNT(1) AS REGUSER FROM whw WHERE logdate = '2013_05_30' AND INSTR(url,'member.php?mod=register')>0;

CREATE TABLE whw_reguser_2013_05_31 AS SELECT COUNT(1) AS REGUSER FROM whw WHERE logdate = '2013_05_31' AND INSTR(url,'member.php?mod=register')>0;

3.5.3 独立IP数

独立IP数，这里直接对我们的IP字段进行去重处理，这样就可以显示IP的独立数量了

CREATE TABLE whw_ip_2013_05_30 AS SELECT COUNT(DISTINCT ip) AS IP FROM whw WHERE logdate='2013_05_30';

CREATE TABLE whw_ip_2013_05_31 AS SELECT COUNT(DISTINCT ip) AS IP FROM whw WHERE logdate='2013_05_31';

3.5.4 跳出用户数

跳出用户数：只浏览了一个页面便离开了网站的访问次数，即只浏览了一个页面便不再访问的访问次数。这里，我们可以通过用户的IP进行分组，如果分组后的记录数只有一条，那么即为跳出用户。将这些用户的数量相加，就得出了跳出用户数

先对IP进行分组，然后使用having进行过滤过滤这个分组里面只有一条记录的条数，最后进行计数，就得到了我们的跳出用户数量

create table whw_jumper_2013_05_30 as select count(1) as jumper from (select count(ip) as times from whw where logdate='2013_05_30' group by ip having times=1) e;

create table whw_jumper_2013_05_31 as select count(1) as jumper from (select count(ip) as times from whw where logdate='2013_05_31' group by ip having times=1) e;

将所有的查询放在一张表里：

set hive.mapred.mode=nonstrict;（解决多表连接的问题）

内连接表示查询两个表的交集，而且ON的条件为 1=1 就表示连接条件永远成立，这里使用将所有的查询结果汇总到一张数据表里面

create table whw_2013_05_30 as select '2013_05_30',a.pv,b.reguser,c.ip,d.jumper from whw_pv_2013_05_30 a join whw_reguser_2013_05_30 b on 1=1 join whw_ip_2013_05_30 c on 1=1 join whw_jumper_2013_05_30 d on 1=1;

select * from whw_2013_05_30;

create table whw_2013_05_31 as select '2013_05_31',a.pv,b.reguser,c.ip,d.jumper from whw_pv_2013_05_31 a join whw_reguser_2013_05_31 b on 1=1 join whw_ip_2013_05_31 c on 1=1 join whw_jumper_2013_05_31 d on 1=1;

select * from whw_2013_05-31;

基于Hadoop部署实践对网站日志分析（大数据分析案例）（二）

3.4 根据结果文件结构建立hive数据库表

3.4.1在结果文件上创建分区表

3.5 使用Hive对结果表进行数据分析统计

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于Hadoop部署实践对网站日志分析（大数据分析案例）（二）

3.4 根据结果文件结构建立hive数据库表

3.4.1在结果文件上创建分区表

3.5 使用Hive对结果表进行数据分析统计

热门文章

最新文章

相关课程

相关电子书