《Hive编程指南》一导读

简介: 本书是一本Hive的编程指南。Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的数据。


q1

前 言

Hive编程指南
本书是一本Hive的编程指南。Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的数据。

大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Hadoop系统上的难度。凡是会使用SQL语言的开发人员都可以很轻松地学习并使用Hive。如果没有Hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,Hive更便于开发人员将基于SQL的应用程序转移到Hadoop中。如果没有Hive,那么开发者将面临一个艰巨的挑战,如何将他们的SQL应用程序移植到Hadoop上。

不过,Hive和其他基于SQL的环境还是有一些差异的。如今,可供Hive用户和Hadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对Hive进行全面详实的介绍,主要适用于SQL专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助Hadoop开发人员对Hive进行调优和定制。

目 录

第1章  基础知识
1.1  Hadoop和MapReduce综述
1.2  Hadoop生态系统中的Hive
1.3  Java和Hive:词频统计算法
1.4  后续事情
第2章 基础操作
第3章 数据类型和文件格式
第4章 HiveQL:数据定义
第5章 HiveQL:数据操作
第6章 HiveQL:查询
第7章 HiveQL:视图
第8章 HiveQL:索引
第9章 模式设计
第10章 调优
第11章 其他文件格式和压缩方法
第12章 开发
第13章 函数
第14章 Streaming
第15章 自定义Hive文件和记录格式
第16章 Hive的Thrift服务
第17章 存储处理程序和NoSQL
第18章 安全
第19章 锁
第20章 Hive和Oozie整合
第21章 Hive和亚马逊网络服务系统(AWS)
第22章 HCatalog
第23章 案例研究

相关文章
|
8月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
215 1
|
8月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
330 0
|
3月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
78 0
|
6月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
下一篇
开通oss服务