【hive】(星巴克开店数据集)将本地数据导入hive的表中,并完成一些数据的查询

简介: 将本地数据导入hive的表中,并完成一些数据的查询

题目:

1、在中国的星巴克有多少家

2、统计在各个国家和地区的星巴克开店数量

3、距离北极点(物理北极)最近的星巴克店是哪一家?

星巴克开店数据大致内容:

   Brand 品牌

   StoreNumber 店铺号码

   StoreName 店铺名称

   Ownership Type 所有权类型

   StreetAddress 街道地址

   City 店铺所在城市

   State/Province 店铺所在州/省份

   Country 店铺所在国家

   Postcode 邮编

   PhoneNumber 电话号码

   Timezone 时区

   Longitude 经度

   Latitude 维度

image.png

# 一、创表并装载数据

<1.创建一个yiqianbin的表>

create table if not exists yiqianbin(

Brand string,

StoreNumber string,

StoreName string,

OwnershipType string,

StreetAddress string,

City string,

State string,

Country string,

Postcode string,

PhoneNumber int,

Timezone string,

Longitude float,

Latitude float)

row format SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

WITH SERDEPROPERTIES("separatorChar" = ",","quoteChar"="\"","escapeChar" = "\\");  


<2.加载数据>

load data local inpath '/home/yqb/hadoop_class/星巴克开店数据集.csv' overwrite  into table yiqianbin;    

image.png

<3.查询一下表以及数据是否成功导入>

image.png

# 二、完成练习

## 1.在中国的星巴克有多少家

select Country,count(1) as count from yiqianbin where Country='CN' group by Country order by count;

image.png

image.png

## 2.统计在各个国家和地区的星巴克开店数量

select Country,count(1) as count from yiqianbin group by Country order by count;

image.png

image.png

### 3.距离北极点(物理北极)最近的星巴克店是哪一家?

select max(float(Latitude)) from yiqianbin;

select StoreName from yiqianbin where Latitude='max(float(Latitude))' limit 1;image.pngimage.png

# 总结

对sql语句掌握的还远远不够

目录
相关文章
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
61 4
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
117 3
|
3月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
50 2
|
4月前
|
SQL 数据库 HIVE
hive数仓 ods层增量数据导入
根据业务需求,当表数据量超过10万条时采用增量数据导入,否则全量导入。增量导入基于`create_date`和`modify_date`字段进行,并确保时间字段已建立索引以提升查询效率。避免在索引字段上执行函数操作。创建增量表和全量表,并按日期进行分区。首次导入全量数据,后续每日新增或变更数据保存在增量表中,通过全量表与增量表的合并保持数据一致性。
159 13
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
131 0
|
5月前
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
SQL 分布式计算 数据处理
实时计算 Flink版产品使用问题之怎么将数据从Hive表中读取并写入到另一个Hive表中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
SQL 存储 分布式计算
|
8月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
215 1
下一篇
开通oss服务