背景
mapreduce编程的不变性,开发成本较高。比较死板。
MapReduce is hard to program
【八股文】格式编程,三大部分
No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等)
数据分析,针对DBA、SQL语句,如何对数据分析
MapReduce编程成本高
FaceBook 实现并开源Hive
如何简化MapReduce的开发???
hive介绍
hive把HDFS、yarn、MapReduce封装了。数据存储在hdfs、转换为MapReduce、运行在yarn上。hive是一个数据仓库。
什么是HIVE?
由Facebook开源用于解决海量结构化日志的数据统计;
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;
构建在Hadoop之上的数据仓库;
使用HQL作为查询接口;
使用HDFS存储;
使用MapReduce计算;本质是:将HQL转化成MapReduce程序
灵活性和扩展性比较好:支持UDF,自定义存储格式等;
适合离线数据处理;
HQL的核心是Engine。引擎的作用是把HQL转换为mapreduce