【hive】(星巴克开店数据集)将本地数据导入hive的表中,并完成一些数据的查询

简介: 将本地数据导入hive的表中,并完成一些数据的查询

题目:

1、在中国的星巴克有多少家

2、统计在各个国家和地区的星巴克开店数量

3、距离北极点(物理北极)最近的星巴克店是哪一家?

星巴克开店数据大致内容:

   Brand 品牌

   StoreNumber 店铺号码

   StoreName 店铺名称

   Ownership Type 所有权类型

   StreetAddress 街道地址

   City 店铺所在城市

   State/Province 店铺所在州/省份

   Country 店铺所在国家

   Postcode 邮编

   PhoneNumber 电话号码

   Timezone 时区

   Longitude 经度

   Latitude 维度

image.png

# 一、创表并装载数据

<1.创建一个yiqianbin的表>

create table if not exists yiqianbin(

Brand string,

StoreNumber string,

StoreName string,

OwnershipType string,

StreetAddress string,

City string,

State string,

Country string,

Postcode string,

PhoneNumber int,

Timezone string,

Longitude float,

Latitude float)

row format SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

WITH SERDEPROPERTIES("separatorChar" = ",","quoteChar"="\"","escapeChar" = "\\");  


<2.加载数据>

load data local inpath '/home/yqb/hadoop_class/星巴克开店数据集.csv' overwrite  into table yiqianbin;    

image.png

<3.查询一下表以及数据是否成功导入>

image.png

# 二、完成练习

## 1.在中国的星巴克有多少家

select Country,count(1) as count from yiqianbin where Country='CN' group by Country order by count;

image.png

image.png

## 2.统计在各个国家和地区的星巴克开店数量

select Country,count(1) as count from yiqianbin group by Country order by count;

image.png

image.png

### 3.距离北极点(物理北极)最近的星巴克店是哪一家?

select max(float(Latitude)) from yiqianbin;

select StoreName from yiqianbin where Latitude='max(float(Latitude))' limit 1;image.pngimage.png

# 总结

对sql语句掌握的还远远不够

目录
相关文章
|
23小时前
|
SQL 分布式计算 Hadoop
创建hive表并关联数据
创建hive表并关联数据
38 0
|
7月前
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
113 0
|
23小时前
|
SQL 存储 大数据
Hive的查询、数据加载和交换、聚合、排序、优化
Hive的查询、数据加载和交换、聚合、排序、优化
27 2
|
23小时前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
35 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
23小时前
|
SQL 消息中间件 Kafka
Flink部署问题之hive表没有数据如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
23小时前
|
SQL 分布式计算 关系型数据库
Sqoop数据导入到Hive表的最佳实践
Sqoop数据导入到Hive表的最佳实践
|
23小时前
|
SQL 消息中间件 存储
案例:Flume消费Kafka数据保存Hive
案例:Flume消费Kafka数据保存Hive
78 0
|
23小时前
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
128 0
|
23小时前
|
SQL 分布式计算 Java
Hive【Hive(三)查询语句】
Hive【Hive(三)查询语句】
|
23小时前
|
SQL 分布式计算 MaxCompute
Apache Flink目前不支持直接写入MaxCompute,但是可以通过Hive Catalog将Flink的数据写入Hive表
Apache Flink目前不支持直接写入MaxCompute,但是可以通过Hive Catalog将Flink的数据写入Hive表
62 3

热门文章

最新文章