大数据入门与实战-Hive操作与SQL 查询

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据入门与实战-Hive操作与SQL 查询

Hive的SQL基本上和我们原先的MYSQL的SQL查询效果差不多,下面是一些实例:


基本查询


  • 创建数据库 create databases hivedb;
    我们可以看到会在/user/hive/warehouse 下面出现hivedb.db文件


30.png


  • 使用指定数据库 use hivedb;
  • 创建表create table test(id int,name string);


31.png

  • 删除表drop table test;


高级操作


  • hive中表的概念与关系型数据库中表的概念非常类似
  • hive中每张表都和DFS上/user/hive/warehouse(默认。此目录可以在${HIVE_HOME/conf/hive-sire.xml中设置})中的一个目录相关联。
  • 创建表 :


CREATE TABLE IF NOT EXISTS t_customer(id int,name string,age int,address string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;


32.png


  • 导入本地数据:
    我们将本地的txt文件中的数据导入表中

    33.png


LOAD DATA LOCAL INPATH '/opt/datas/customer.txt' OVERWRITE INTO TABLE T_CUSTOMER;


34.png


  • 导入Hadoop数据
    我们先将customer.txt上传到hdfs上


hdfs dfs -mkdir /user/datas
 hdfs dfs -put /opt/datas/customer.txt /user/datas


然后将HDFS数据导入hive


LOAD DATA INPATH '/user/datas/customer.txt' INTO TABLE T_CUSTOMER;


35.png


我们可以看到源文件已经删除


36.png



但是在warehouse会保留备份



37.png


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
SQL 运维 监控
SQL查询太慢?实战讲解YashanDB SQL调优思路
本文是Meetup第十期“调优实战专场”的第二篇技术文章,上一篇《高效查询秘诀,解码YashanDB优化器分组查询优化手段》中,我们揭秘了YashanDB分组查询优化秘诀,本文将通过一个案例,助你快速上手YashanDB慢日志功能,精准定位“慢SQL”后进行优化。
|
5月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
133 2
|
8月前
|
SQL 大数据 数据挖掘
玩转大数据:从零开始掌握SQL查询基础
玩转大数据:从零开始掌握SQL查询基础
315 35
|
9月前
|
SQL 分布式计算 数据挖掘
阿里云 MaxCompute MaxQA 开启公测,公测可申请 100CU 计算资源解锁近实时高效查询体验
阿里云云原生大数据计算服务 MaxCompute 推出 MaxQA(原 MCQA2.0)查询加速功能,在独享的查询加速资源池的基础上,对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化,显著减少了查询响应时间,适用于 BI 场景、交互式分析以及近实时数仓等对延迟要求高且稳定的场景。现正式开启公测,公测期间可申请100CU(价值15000元)计算资源用于测试,欢迎广大开发者及企业用户参与,解锁高效查询体验!
阿里云 MaxCompute MaxQA 开启公测,公测可申请 100CU 计算资源解锁近实时高效查询体验
|
8月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
292 4
|
12月前
|
负载均衡 大数据
大数据散列分区查询频率
大数据散列分区查询频率
130 5
|
12月前
|
SQL 数据库 UED
SQL性能提升秘籍:5步优化法与10个实战案例
在数据库管理和应用开发中,SQL查询的性能优化至关重要。高效的SQL查询不仅可以提高应用的响应速度,还能降低服务器负载,提升用户体验。本文将分享SQL优化的五大步骤和十个实战案例,帮助构建高效、稳定的数据库应用。
969 3
|
12月前
|
存储 大数据 数据管理
大数据分区提高查询性能
大数据分区提高查询性能
321 2
|
存储 负载均衡 大数据
大数据水平分区提高查询性能
【11月更文挑战第2天】
206 4
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。