hadoop（1）：centos 安装 hadoop & hive-阿里云开发者社区

hadoop（1）：centos 安装 hadoop & hive

2015-08-14 1469

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1，关于hiveHive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机

1，关于hive

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。

网站首页：
http://hive.apache.org/

2，安装

首先要安装hadoop
https://hadoop.apache.org/
直接下载tar.gz解压缩。最新版本2.7.1。

tar -zxvf hadoop-2.7.1.tar.gz
mv hadoop-2.7.1 hadoop

下载地址：
http://hive.apache.org/downloads.html
直接解压缩就可以。最新版本 1.2.1。

tar -zxvf apache-hive-1.2.1-bin.tar.gz 
mv apache-hive-1.2.1 apache-hive

设置环境变量：


export JAVA_HOME=/usr/java/default
export CLASS_PATH=$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/data/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

export HIVE_HOME=/data/apache-hive
export PATH=$HIVE_HOME/bin:$PATH

3，启动hive，创建表

hive 官网：https://cwiki.apache.org/confluence/display/Hive/Home
配置环境变量就可以启动hive了，这个hive是一个本机环境，只依赖hadoop，只有有hadoop环境变量就行。

创建数据表，和mysql非常类似
参考：http://www.uml.org.cn/yunjisuan/201409235.asp
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

# hive
Logging initialized using configuration in jar:file:/data/apache-hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> show databases;
OK
default
Time taken: 1.284 seconds, Fetched: 1 row(s)
hive> use default;
OK
Time taken: 0.064 seconds
hive> show tables;
OK
Time taken: 0.051 seconds
hive> CREATE TABLE user_info(uid INT,name STRING)
    > PARTITIONED BY (create_date STRING)
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    > STORED AS TEXTFILE;
OK
Time taken: 0.09 seconds

使用apache hive 创建数据库表的时候有可能会遇到问题：

FAILED: ParseException line 5:2 Failed to recognize predicate 'date'. Failed rule: 'identifier' in column specification

说明关键字冲突了。不能使用date，user等关键字。

指定存储格式为 Sequencefile 时，把txt格式的数据导入表中，hive 会报文件格式错

Failed with exception Wrong file format. Please check the file's format.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask

4，导入数据

hive不支持用insert语句一条一条的进行插入操作，也不支持update操作。数据是以load的方式加载到建立好的表中。
数据一旦导入就不可以修改。因为hadoop是这个特性。

创建两个数据文件：

/data/user_info_data1.txt
121,zhangsan1
122,zhangsan2
123,zhangsan3
/data/user_info_data2.txt
124,zhangsan4
125,zhangsan5
126,zhangsan6

数据导入：分别将数据导入到两个分区中。

hive> LOAD DATA LOCAL INPATH '/data/user_info_data1.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150801');
Loading data to table default.user_info partition (create_date=20150801)
Partition default.user_info{create_date=20150801} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]
OK
Time taken: 0.762 seconds
hive> LOAD DATA LOCAL INPATH '/data/user_info_data2.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150802');
Loading data to table default.user_info partition (create_date=20150802)
Partition default.user_info{create_date=20150802} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]
OK
Time taken: 0.403 seconds

5，查询

直接查询即可。

hive> select * from user_info where create_date = 20150801;
OK
121     zhangsan1       20150801
122     zhangsan2       20150801
123     zhangsan3       20150801
Time taken: 0.099 seconds, Fetched: 3 row(s)

更多查询函数参考：
hive 函数大全和用户自定义函数
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

6，总结

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。

hive可以非常方便的进行离线数据统计，因为数据一旦录入是不能进行修改的。
hive的语法和mysql非常相似，可以充分利用hadoop进行数据统计，可以进行多次join而不用担心效率问题。
目前，有一个小问题没有解决，是数据导入必须使用textfile，不是压缩文件类型。
这个问题的具体描述参考：
http://blog.163.com/xiaoy2002@126/blog/static/6797953420128118227663/

hadoop（1）：centos 安装 hadoop & hive

1，关于hive

2，安装

3，启动hive，创建表

4，导入数据

5，查询

6，总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

hadoop（1）：centos 安装 hadoop &amp; hive

1，关于hive

2，安装

3，启动hive，创建表

4，导入数据

5，查询

6，总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

hadoop（1）：centos 安装 hadoop & hive