「大数据系列」:Apache Hive 分布式数据仓库项目介绍

简介: 「大数据系列」:Apache Hive 分布式数据仓库项目介绍


Apache Hive™数据仓库软件有助于读取,编写和管理驻留在分布式存储中的大型数据集并使用SQL语法进行查询


Hive 特性

Hive构建于Apache Hadoop™之上,提供以下功能:

  • 通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析。
  • 一种在各种数据格式上强加结构的机制
  • 访问直接存储在Apache HDFS™或其他数据存储系统(如Apache HBase™)中的文件
  • 通过Apache Tez™,Apache Spark™或MapReduce执行查询
  • 使用HPL-SQL的过程语言
  • 通过Hive LLAP,Apache YARN和Apache Slider进行亚秒级查询检索。

Hive提供标准的SQL功能,包括许多后来的SQL:2003和SQL:2011分析功能。

Hive的SQL也可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表来扩展用户代码

函数(UDTF)。

没有唯一的“Hive格式”存储数据。 Hive附带内置连接器,用于逗号和制表符分隔值(CSV/ TSV)文本文件,Apache Parquet™,Apache ORC™和其他格式。

用户可以使用其他格式的连接器扩展Hive。有关详细信息,请参阅开发人员指南中的File Formats和Hive SerDe。

Hive不适用于联机事务处理(OLTP)工作负载。它最适用于传统的数据仓库任务。

Hive旨在最大限度地提高可伸缩性(通过向Hadoop集群动态添加更多计算机来扩展),性能,可扩展性,容错,与输入格式松散耦合。

Hive的组件包括HCatalog和WebHCat。

HCatalog是Hive的一个组件。它是Hadoop的表和存储管理层,使用户可以使用不同的数据

  • 处理工具 - 包括Pig和MapReduce - 可以更轻松地在网格上读写数据。
  • WebHCat提供的服务可用于运行Hadoop MapReduce(或YARN),Pig,Hive作业或执行Hive元数据使用HTTP(REST样式)接口的操作。

Hive 使用

Hive SQL语言手册:命令,CLI,数据类型,

DDL(创建/删除/更改/截断/显示/描述),统计(分析),索引,存档,

DML(加载/插入/更新/删除/合并,导入/导出,解释计划),

查询(选择),运算符和UDF,锁,授权

文件格式和压缩:RCFile,Avro,ORC,Parquet; 压缩,LZO

程序语言:Hive HPL / SQL

Hive配置属性

HIve 客户端

  • Hive客户端(JDBC,ODBC,Thrift)
  • HiveServer2:HiveServer2客户端和直线,Hive指标

Hive Web界面

Hive SerDes:Avro SerDe,Parquet SerDe,CSV SerDe,JSON SerDe

Hive Accumulo集成

Hive HBase集成

Druid整合

Hive Transactions,Streaming Data Ingest和Streaming Mutation API

Hive 计数器

Hive 管理

安装Hive

配置Hive

设置Metastore

Hive Schema Tool

设置Hive Web界面

设置Hive服务器(JDBC,ODBC,Thrift,HiveServer2)

Hive复制

Hive on Amazon Web Services

Amazon Elastic MapReduce上的Hive

Hive on Spark

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
157 0
|
18天前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
21 1
|
9天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
40 1
|
18天前
|
存储 数据采集 分布式计算
构建MaxCompute数据仓库的流程
【4月更文挑战第1天】构建MaxCompute数据仓库的流程
22 2
|
30天前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1400 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
157 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
1月前
|
分布式计算 大数据 Apache
大数据技术变革正当时,Apache Hudi了解下?
大数据技术变革正当时,Apache Hudi了解下?
25 0
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
64 0
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
69 0
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
496 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)

热门文章

最新文章

推荐镜像

更多