文档备案控制台

开发者社区大数据文章正文

大数据入门与实战-Hive操作与SQL 查询

2022-05-20 286

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据入门与实战-Hive操作与SQL 查询

Hive的SQL基本上和我们原先的MYSQL的SQL查询效果差不多，下面是一些实例：

基本查询

创建数据库 create databases hivedb;
我们可以看到会在/user/hive/warehouse 下面出现hivedb.db文件

使用指定数据库 use hivedb;
创建表create table test(id int,name string);

删除表drop table test;

高级操作

hive中表的概念与关系型数据库中表的概念非常类似
hive中每张表都和DFS上/user/hive/warehouse(默认。此目录可以在${HIVE_HOME/conf/hive-sire.xml中设置})中的一个目录相关联。
创建表：

CREATE TABLE IF NOT EXISTS t_customer(id int,name string,age int,address string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

导入本地数据：
我们将本地的txt文件中的数据导入表中

LOAD DATA LOCAL INPATH '/opt/datas/customer.txt' OVERWRITE INTO TABLE T_CUSTOMER;

导入Hadoop数据
我们先将customer.txt上传到hdfs上

hdfs dfs -mkdir /user/datas
 hdfs dfs -put /opt/datas/customer.txt /user/datas

然后将HDFS数据导入hive

LOAD DATA INPATH '/user/datas/customer.txt' INTO TABLE T_CUSTOMER;

我们可以看到源文件已经删除

但是在warehouse会保留备份

文章标签：

云原生大数据计算服务 MaxCompute

分布式计算

SQL

关系型数据库

MySQL

Hadoop

HIVE

数据库

大数据

关键词：

SQL查询

SQL大数据

云原生大数据计算服务 MaxCompute sql

大数据SQL

云原生大数据计算服务 MaxCompute实战

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

致Great_VIP

目录

相关文章

阿里云开发者

|

8月前

|

SQL 存储分布式计算

【万字长文，建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们（如数分、算法、产品等）能够快速上手ODPS查询优化，实现高性能查数看数，避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。

阿里云开发者

1613 36 43

【万字长文，建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

青云交（Java大数据AI云原生Python）

|

SQL 分布式计算大数据

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。

青云交（Java大数据AI云原生Python）

894 78 78

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

Echo_Wish

|

10月前

|

数据采集分布式计算大数据

不会Python，还敢说搞大数据？一文带你入门大数据编程的“硬核”真相

不会Python，还敢说搞大数据？一文带你入门大数据编程的“硬核”真相

Echo_Wish

234 1 2

大熊计算机

|

11月前

|

存储缓存分布式计算

OSS大数据分析集成：MaxCompute直读OSS外部表优化查询性能（减少数据迁移的ETL成本）

MaxCompute直读OSS外部表优化方案，解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化（ORC/Parquet）、分区剪枝、谓词下推与元数据缓存等技术，显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略，实现高效数据分析。

大熊计算机

331 2 2

Echo_Wish

|

11月前

|

SQL 人工智能分布式计算

别再只会写SQL了！这五个大数据趋势正在悄悄改变行业格局

别再只会写SQL了！这五个大数据趋势正在悄悄改变行业格局

Echo_Wish

275 0 1

游客vwx7bav3mqbk6

|

9月前

|

SQL 分布式计算大数据

SparkSQL 入门指南：小白也能懂的大数据 SQL 处理神器

在大数据处理的领域，SparkSQL 是一种非常强大的工具，它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎，使得我们可以在分布式环境下执行 SQL 查询，并能利用 Spark 的强大计算能力进行数据分析。

游客vwx7bav3mqbk6

1274 0 0

Echo_Wish

|

SQL 大数据数据挖掘

玩转大数据：从零开始掌握SQL查询基础

玩转大数据：从零开始掌握SQL查询基础

Echo_Wish

483 35 36

青云交（Java大数据AI云原生Python）

|

SQL 关系型数据库 MySQL

大数据新视界--大数据大厂之MySQL数据库课程设计：MySQL 数据库 SQL 语句调优方法详解（2-1）

本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划，如使用 EXPLAIN 命令及理解关键指标；优化查询语句结构，包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识，如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章，强调 SQL 语句调优重要性。为提升数据库性能提供实用方法，适合数据库管理员和开发人员。

青云交（Java大数据AI云原生Python）

456 11 11

青云交（Java大数据AI云原生Python）

|

关系型数据库 MySQL 大数据

大数据新视界--大数据大厂之MySQL 数据库课程设计：MySQL 数据库 SQL 语句调优的进阶策略与实际案例（2-2）

本文延续前篇，深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用，介绍多种索引类型及避免索引失效等；调整数据库参数，如缓冲池、连接数和日志参数；还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章，强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导，确保数据库高效运行。

青云交（Java大数据AI云原生Python）

418 5 5

热门文章

最新文章

hive中将单行拆分成多行总结

Hive的jion性能分析的相关文章

实战 | Hive 数据倾斜问题定位排查及解决（一）

[Hive]Hive使用指南五客户端导出数据

Hive 插入大量数据

Hive安装和配置

hive_0.11中文用户手册

【Hive】（七）Hive 查询使用详解1

大数据Hive Join连接查询

Hive表删除数据不支持使用Delete From...

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明

基于python大数据深度学习的酒店评论文本情感分析系统

基于python大数据的的海洋气象数据可视化平台

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎