这里以词频统计为例:
1、准备好自己需要词频统计的文件
我这里以《西游记》为例
2、启动hive hive
查看所有数据库 show databases;
使用想要使用的数据库 use hive;
查看数据库hive下有哪些数据表和视图 show tables;
3、创建一个表docs create table docs(line string);
将西游记这个文件中的数据装载进docs表中
load data local inpath '/home/yqb/hadoop_class/xiyouji_data/xiyouji.txt' overwrite into table docs;
(这里最重要的就是别把路径弄错了,有时候报错可能是需要自己手动需要把上面的单引号在命令行中改一下)
4、最后一步,将各词汇装进word_count表中,以空格划分(直接复制以下命令即可)
create table word_count as
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;
执行完成后,用select语句查看结果如下
select * from word_count;
另加:如果要统计每个字出现的次数,只需要把 order by word; 改成 order by count;
create table word_count as
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by count;
用select语句查看结果如下
select * from word_count;
(欢迎大佬指点)