【hive】在hive中实现WordCount算法

简介: 在hive中实现WordCount算法

这里以词频统计为例:

1、准备好自己需要词频统计的文件

image.png

我这里以《西游记》为例

image.png

2、启动hive                hive

    查看所有数据库           show databases;

    使用想要使用的数据库               use hive;

    查看数据库hive下有哪些数据表和视图        show tables;

image.png

image.png

3、创建一个表docs            create table docs(line string);

     将西游记这个文件中的数据装载进docs表中

load data local inpath '/home/yqb/hadoop_class/xiyouji_data/xiyouji.txt' overwrite into table docs;

     (这里最重要的就是别把路径弄错了,有时候报错可能是需要自己手动需要把上面的单引号在命令行中改一下)

image.png

image.png

4、最后一步,将各词汇装进word_count表中,以空格划分(直接复制以下命令即可)

create table word_count as

     select word, count(1) as count from

     (select explode(split(line,' '))as word from docs) w

     group by word

     order by word;

image.png

    执行完成后,用select语句查看结果如下

    select * from word_count;

image.png

image.png

另加:如果要统计每个字出现的次数,只需要把 order by word; 改成 order by count;

create table word_count as

     select word, count(1) as count from

     (select explode(split(line,' '))as word from docs) w

     group by word

     order by count;

image.png

  用select语句查看结果如下

        select * from word_count;image.png

(欢迎大佬指点)

目录
相关文章
|
6月前
|
SQL 存储 编解码
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
Hive中的压缩技术是如何实现的?请解释其原理和常用压缩算法。
71 0
|
SQL 算法 Linux
Hive应用实例:WordCount
Hive应用实例:WordCount
218 0
|
SQL HIVE
hive:用hql来做wordcount
hive:用hql来做wordcount
135 0
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
9天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
11天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
10天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。