HIVE 走近大数据之Hive入门

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: HIVE 走近大数据之Hive入门

   1、创建表

   

create table emp(
            id int,
            name string,
            gender string
        )

   2、创建表写入想要存放的位置

   

create table emp(
            id int,
            name string,
            gender string
        )
        location '/usr/data/hive/emp'


   3、创建表指定分隔符,默认是制表符('\t')

 

create table emp(
            id int,
            name string,
            gender string
        )
        //用逗号作为分隔符(',')
        row format delimited fields terminated by ','


   4、快速复制表

   

create table emp_copy
        as
        select * from emp;
        create table emp_copy
        //用逗号作为分隔符(',')
        row format delimited fields terminated by ',' 
        as
        select * from emp;



   5、增加表列

alter table emp add columns(class string)

   6、删除表 如果开启了回收机制,删除后会移动到里面,然后定期删除

 

drop table emp


   7、创建分区表

       1)内部表:Partition对应于数据库的partition列的密集索引,在hive中表中的一个partition对应于表下的一个目录,所有的partition的数据都存储在对应的目录中;

       explain可以查询执行效率是否提升,执行过程从下往上,从右往左

     

insert into table emp_table partition(gender = 'M')  select id, name from emp where gender = 'M';
            insert into table emp_table partition(gender = 'F')  select id, name from emp where gender = 'F';

       2)外部表(External Table):指向已经在HDFS中存在的数据,可以创建partition,外部表只有一个过程,加载数据和创建表时同时完成,并不会移动到数据库目录中,

       只是与外部数据建立一个链接。当删除一个外部表时,仅删除该链接

       

external table emp(
                id int,
                name string,
                gender string
            )
            //用逗号作为分隔符(',')
            row format delimited fields terminated by ',' 
            //指定数据存放位置
            location '/usr/data/hive/emp'

       3)不同点:外部表和内部表在元数据组织上是相同的,而实际数据的存储则有较大的差异

       4)桶表(Bucket Table)

           桶表是对数据进行哈希取值,然后放到不同文件中存储

     

create table emp(
                id int,
                name string,
                gender string
            )
            //根据name字段进行放置5个桶
            clustered by(name) into 5 buckets;

       5)视图(View)

           视图是一种虚表,是一个逻辑概念;可以跨越多张表,视图简历在已有的表的基础上,视图赖以建立的这些表称谓基表,

           视图可以简化复杂的查询

       

//emp、dept两个表为基表,由视图展示出来---只能做展示
            create view empInfo 
            as
            select e.id, e.name, e.gender, dept.age
            from emp e, dept d
            where e.id = dept.id


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
5月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
143 1
|
4月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
8月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
173 6
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
808 19
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
1492 14
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
281 0
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
801 14
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
1053 6