HIVE 走近大数据之Hive入门

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: HIVE 走近大数据之Hive入门

   1、创建表

   

create table emp(
            id int,
            name string,
            gender string
        )

   2、创建表写入想要存放的位置

   

create table emp(
            id int,
            name string,
            gender string
        )
        location '/usr/data/hive/emp'


   3、创建表指定分隔符,默认是制表符('\t')

 

create table emp(
            id int,
            name string,
            gender string
        )
        //用逗号作为分隔符(',')
        row format delimited fields terminated by ','


   4、快速复制表

   

create table emp_copy
        as
        select * from emp;
        create table emp_copy
        //用逗号作为分隔符(',')
        row format delimited fields terminated by ',' 
        as
        select * from emp;



   5、增加表列

alter table emp add columns(class string)

   6、删除表 如果开启了回收机制,删除后会移动到里面,然后定期删除

 

drop table emp


   7、创建分区表

       1)内部表:Partition对应于数据库的partition列的密集索引,在hive中表中的一个partition对应于表下的一个目录,所有的partition的数据都存储在对应的目录中;

       explain可以查询执行效率是否提升,执行过程从下往上,从右往左

     

insert into table emp_table partition(gender = 'M')  select id, name from emp where gender = 'M';
            insert into table emp_table partition(gender = 'F')  select id, name from emp where gender = 'F';

       2)外部表(External Table):指向已经在HDFS中存在的数据,可以创建partition,外部表只有一个过程,加载数据和创建表时同时完成,并不会移动到数据库目录中,

       只是与外部数据建立一个链接。当删除一个外部表时,仅删除该链接

       

external table emp(
                id int,
                name string,
                gender string
            )
            //用逗号作为分隔符(',')
            row format delimited fields terminated by ',' 
            //指定数据存放位置
            location '/usr/data/hive/emp'

       3)不同点:外部表和内部表在元数据组织上是相同的,而实际数据的存储则有较大的差异

       4)桶表(Bucket Table)

           桶表是对数据进行哈希取值,然后放到不同文件中存储

     

create table emp(
                id int,
                name string,
                gender string
            )
            //根据name字段进行放置5个桶
            clustered by(name) into 5 buckets;

       5)视图(View)

           视图是一种虚表,是一个逻辑概念;可以跨越多张表,视图简历在已有的表的基础上,视图赖以建立的这些表称谓基表,

           视图可以简化复杂的查询

       

//emp、dept两个表为基表,由视图展示出来---只能做展示
            create view empInfo 
            as
            select e.id, e.name, e.gender, dept.age
            from emp e, dept d
            where e.id = dept.id


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
183 19
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
447 14
|
5月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
168 2
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
34 0
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
3月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
526 0
|
3月前
|
SQL 分布式计算 Hadoop
Hive基本概念入门
Hive基本概念入门
46 0
|
4月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
113 14
|
3月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
4月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。