CDH6.2版本的HIVE性能测试

简介: CDH6.2版本的HIVE性能测试

服务器配置

当前hive通过群集方式安装,分别安装到node1-node3中,各主机的配置如下表:

主机 CPU 内存 硬盘
Node1 1颗1核 14G 14G
Node2 1颗1核 2G 14G
Node3 1颗1核 2G 14G

创建test数据库

1.    create table test(    
2.        name String,  
3.        gender String,  
4.        age String,  
5.        city String,  
6.        idNumber String,  
7.        cardNumber String,  
8.        balance String  
9.    )    
10.    row format delimited fields terminated by ',' lines terminated by '\n'  
stored as textfile; 

测试10万条数据

使用createtestdata.jar生成10万条测试数据,并导入hdfs,使用命令行put到hdfs的/data目录,或使用hdfs帐户登录hue,上传至/data目录

1.    #切换至hdfs用户  
2.    su hdfs  
3.    #将文件testdata_10w.txt存入hdfs的/data目录  
4.    hadoop fs -put testdata_10w.txt /data  
5.    #查看目录情况  
6.    hadoop fs -ls /data  

1.png

使用如下命令,将数据导入test表中

1.    load data inpath '/data/testdata_10w.txt' into table test;  

2.png

执行sql语句,查询测试数据中各城市的人员年龄分布情况及总余额信息:

1.    SELECT  
2.        city AS city_name,  
3.        count(NAME) AS total_persons,  
4.        max(age) AS max_age,  
5.        min(age) AS min_age,  
6.        round(avg(age), 2) AS avg_age,  
7.        sum(balance) AS total_balance  
8.    FROM  
9.        test  
10.    GROUP BY  
11.        city  

执行结果:31.93s
3.png

测试100万条数据

执行结果:43.827s
4.png

测试1000万条数据

执行结果:142.885s
5.png

测试1亿条数据

执行结果:1035.759s,约17分钟
6.png
7.png

测试结论

在当前服务器配置情况下,测试结果:

数据量 10万 100万 1000万 1亿
结果 31.93s 43.827s 142.885s 1035.759s
相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
目录
相关文章
|
3月前
|
SQL 关系型数据库 MySQL
Hive跨集群和版本迁移
Hive跨集群和版本迁移
|
SQL 消息中间件 分布式计算
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
670 0
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
|
4月前
|
NoSQL 测试技术 Redis
Redis【性能 01】Redis 5.x 6.x 7.x 共5个不同版本延迟及性能测试对比分析(单机版默认配置)
Redis【性能 01】Redis 5.x 6.x 7.x 共5个不同版本延迟及性能测试对比分析(单机版默认配置)
207 0
|
SQL 存储 分布式计算
Hive 2.1.1 MetaException(在metastore中找不到消息:版本信息)
Hive 2.1.1 MetaException(在metastore中找不到消息:版本信息)
215 0
|
Java 测试技术 应用服务中间件
压测软件,JMeter5.4.1版本下载及环境变量配置
压测软件,JMeter5.4.1版本下载及环境变量配置
861 0
压测软件,JMeter5.4.1版本下载及环境变量配置
|
SQL 分布式计算 资源调度
spark 3.1.x支持(兼容)hive 1.2.x以及hadoop cdh版本的尝试
spark 3.1.x支持(兼容)hive 1.2.x以及hadoop cdh版本的尝试
863 0
|
SQL Java Apache
【阿里云EMR实战篇】以EMR测试集群版本为例,详解 Flink SQL Client 集成 Hive 使用步骤
以测试集群版本为例(EMR-4.4.1)—— Flink SQL Client 集成 Hive 使用文档
【阿里云EMR实战篇】以EMR测试集群版本为例,详解 Flink SQL Client 集成 Hive 使用步骤
|
SQL 弹性计算 分布式计算
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
|
SQL 弹性计算 分布式计算
自建Hive数据仓库跨版本迁移到阿里云E-MapReduce
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。
自建Hive数据仓库跨版本迁移到阿里云E-MapReduce
|
SQL 关系型数据库 MySQL
Hive Schema version 2.1.0 does not match metastore(版本不匹配)解决
Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore’s schema version 1.
2285 0