【hive】在hive中实现WordCount算法

简介: 在hive中实现WordCount算法

这里以词频统计为例:

1、准备好自己需要词频统计的文件

image.png

我这里以《西游记》为例

image.png

2、启动hive                hive

    查看所有数据库           show databases;

    使用想要使用的数据库               use hive;

    查看数据库hive下有哪些数据表和视图        show tables;

image.png

image.png

3、创建一个表docs            create table docs(line string);

     将西游记这个文件中的数据装载进docs表中

load data local inpath '/home/yqb/hadoop_class/xiyouji_data/xiyouji.txt' overwrite into table docs;

     (这里最重要的就是别把路径弄错了,有时候报错可能是需要自己手动需要把上面的单引号在命令行中改一下)

image.png

image.png

4、最后一步,将各词汇装进word_count表中,以空格划分(直接复制以下命令即可)

create table word_count as

     select word, count(1) as count from

     (select explode(split(line,' '))as word from docs) w

     group by word

     order by word;

image.png

    执行完成后,用select语句查看结果如下

    select * from word_count;

image.png

image.png

另加:如果要统计每个字出现的次数,只需要把 order by word; 改成 order by count;

create table word_count as

     select word, count(1) as count from

     (select explode(split(line,' '))as word from docs) w

     group by word

     order by count;

image.png

  用select语句查看结果如下

        select * from word_count;image.png

(欢迎大佬指点)

目录
相关文章
|
4月前
|
SQL 存储 编解码
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
49 0
|
SQL 算法 Linux
Hive应用实例:WordCount
Hive应用实例:WordCount
185 0
|
SQL HIVE
hive:用hql来做wordcount
hive:用hql来做wordcount
124 0
|
4月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
163 1
|
4月前
|
SQL 存储 大数据
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
210 0
|
4月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
188 0
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
943 0
|
2月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。