Hive初识

简介: 背景 mapreduce编程的不变性,开发成本较高。比较死板。 MapReduce is hard to program 【八股文】格式编程,三大部分 No Schema, lack of query lanaguages, eg.

背景

mapreduce编程的不变性,开发成本较高。比较死板。

  • MapReduce is hard to program

【八股文】格式编程,三大部分

  • No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等)

数据分析,针对DBA、SQL语句,如何对数据分析
MapReduce编程成本高
FaceBook 实现并开源Hive

如何简化MapReduce的开发???

hive介绍

hive把HDFS、yarn、MapReduce封装了。数据存储在hdfs、转换为MapReduce、运行在yarn上。hive是一个数据仓库。

什么是HIVE?

  • 由Facebook开源用于解决海量结构化日志的数据统计;

  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;

  • 构建在Hadoop之上的数据仓库;
    使用HQL作为查询接口;
    使用HDFS存储;
    使用MapReduce计算;

  • 本质是:将HQL转化成MapReduce程序

  • 灵活性和扩展性比较好:支持UDF,自定义存储格式等;

  • 适合离线数据处理;

  • HQL的核心是Engine。引擎的作用是把HQL转换为mapreduce

HIVE在hadoop生态中的位置

目录
相关文章
|
3月前
|
SQL 存储 Java
Hive 中的 SerDe 详解
【8月更文挑战第31天】
183 1
|
SQL 存储 分布式计算
hive解决了什么问题
hive解决了什么问题
108 0
|
SQL Java 数据库连接
|
SQL 存储 分布式计算
HIVE初识
什么是HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。
103 1
|
SQL 存储 分布式计算
Hive小结1
Hive小结
103 1
|
SQL 存储 分布式计算
Hive小结2
Hive小结2
120 0
|
SQL 分布式计算 大数据
Hive 到底有什么用?
MapReduce简化大数据编程难度,但对经常需大数据计算的人,如从事研究BI的数据分析师,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有门槛。且若每次统计和分析都开发相应MapReduce程序,成本确实太高。
108 0
Hive中not in的正确使用
Hive中not in的正确使用
Hive中not in的正确使用
|
SQL 存储 分布式计算
【Hive】(一)Hive 入门
【Hive】(一)Hive 入门
356 0
【Hive】(一)Hive 入门
|
SQL 数据库 HIVE