《Pig编程指南》一2.1 下载和安装Pig

简介:

本节书摘来异步社区《Pig编程指南》一书中的第1章,第1.2节,作者: 【美】Alan Gates 译者: 曹坤,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.1 下载和安装Pig

用户需要下载和安装Pig,才能在本地机器或者Hadoop集群上使用它。如果用户已经了解并完成了这一操作,那么可以直接跳到2.2节“运行Pig”进行阅读。

用户既可以直接下载Pig安装包也可以先下载源代码然后自行进行编译。当然同样也可以以Hadoop分支的方式获得Pig。

2.1.1 从Apache下载Pig软件包

这个是Apache Pig的官方版本。它是一个软件包,里面包含了运行Pig所需的所有JAR包。用户可以通过访问Pig发布页面进行下载。

Pig不需要安装到Hadoop集群中去。它运行在用户提交Hadoop任务的那台机器上。尽管用户可以从个人笔记本电脑或者台式计算机运行Pig,但是在实际操作中,大部分的集群管理员会配置好一到多台可以访问他们Hadoop集群的服务器,虽然这些服务器可以不是集群的一部分(也就是说它们既不是数据节点也不是计算节点)。通过这种方式,管理员可以方便地升级Pig和将工具集成在一起,同时也可以很好地限制人员对于集群的访问。这些机器被称为网关机或者缝边机。本书中我称之为网关机。

用户需要在这些网关机上安装Pig。如果用户是通过个人台式计算机或者笔记本电脑访问Hadoop集群的话,那么同样需要在个人台式计算机或者笔记本电脑上安装Pig。当然,如果用户想通过本地模式使用Pig的话,那么也可以将Pig安装到个人的本地机器上。

Pig的核心是用Java语言编写的,因此它是跨平台的。启动Pig的shell脚本是个bash脚本,所以它需要一个Unix环境。Pig所基于的Hadoop,即使使用的是本地模式,也需要是UNIX环境的,因为Hadoop的文件操作是基于UNIX的。实际情况是,大部分的Hadoop集群采用的是Linux系统。很多Pig开发者是在Mac OS X系统上开发和测试Pig的。

Pig需要Java 1.6支持,Pig版式从0.5到0.9需要Hadoop 0.20版本支持。对于以后的版本,请在下载页面确认该版本需要对应的Hadoop版本是多少。下载的Pig中会包含与它对应的Hadoop。如果用户想在本地模式下使用Pig或者想把它安装到一个没有安装Hadoop的网关机上,那么就不需要额外去下载Hadoop。

一旦下载完Pig,可以把它放在自己喜欢的任何位置,Pig无需依赖一个特定位置。安装第一步,将压缩包放在用户期望的目录下然后执行:

tar xzf filename

其中filename 是用户所下载的TAR压缩包文件。

安装第二步是确定环境变量JAVA_HOME是否设置指向到包含一个Java发布版的目录,这一步是为执行Pig做环境准备。如果这个环境变量没有设置,那么Pig会立即执行失败。用户可以通过shell命令设置该环境变量,也可以在调用Pig的时候通过命令行指定该环境变量,或者在位于用户刚才解压后的文件bin目录下的pig脚本文件中显式地指定好JAVA_HOME环境变量。用户可以通过执行 which java命令查看当前java所在路径,把这条命令返回的结果后面的bin/java 去掉,就是当前环境中JAVA_HOME的值。

2.1.2 从Cloudera下载Pig

除了官方的Apache版本之外,同样有一些其他的公司会重新包装和分发Hadoop以及与其相关的工具。当前这些公司中最受欢迎的是Cloudera,它为Red Hat系列的系统开发相应的RPM包以及为Debian系统开发相应的APT包。对于不可以使用这些包管理器的其他系统,Cloudera同样提供了tar压缩包文件。使用像Cloudera这样的发行版的一个优点是与Hadoop相关的所有工具都是打包在一起并且在一起测试完成的。同样,如果用户需要专业的技术支持,它也是提供的。缺点是用户将受制于其使用的发行版的提供商的发行速度。Apache推出一个新版本后,然后到各个分支给出不同的发行版,这中间会有一定的时间延迟。

如果想获得从Cloudera下载和安装Hadoop和Pig的详细说明,请访问Cloudera下载页面。需要注意的是用户需要单独下载Pig,因为Hadoop包中没有包含Pig。

2.1.3 使用Maven下载Pig

除了可以从Pig的Apache官方网站上下载发行版之外,用户还可以通过Apache的Maven资源库下载Pig。这个站点包含了Pig需要的所有JAR文件,包括源代码jar包文件,Javadocs jar包文件,同时还包括一个定义了Pig所依赖的JAR包的POM文件。如果用户使用maven或者ant进行编译,在编译过程中也会自动从这个资源库中下载相关的JAR包。

2.1.4 下载Pig源码

当用户从Apache下载Pig的时候,同时也会得到所有Pig的源代码。这样可以方便用户调试其下载的那个版本的Pig或者只是下载代码下来看看Pig是如何工作的。但是如果用户想一直跟随在最前沿,想在正式版本发行前尝试新的功能或者进行bug修复,那么可以通过Apache的版本管理资源库中下载源代码。用户需要可以访问Pig的问题跟踪系统并将一些补丁文件打到自己使用的版本中,这些补丁文件往往还没有来得及合并到代码资源库中。如何通过svn或者git获得Pig可以在Pig的版本控制页面这个网页看到。

相关文章
|
SQL 分布式计算 Linux
四十一、centos安装pig(Pig的应用)
四十一、centos安装pig(Pig的应用)
四十一、centos安装pig(Pig的应用)
|
SQL 关系型数据库 数据挖掘
|
分布式计算 JavaScript 前端开发
|
分布式计算 Hadoop Java
hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装
一、hadoop2.6伪分布安装请参考:http://blog.csdn.net/gamer_gyt/article/details/46793731二、pig0.15安装 Pig的介绍         Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译 器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
1228 0
|
分布式计算 Hadoop Apache
Hadoop:pig 安装及入门示例
pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据。 一、安装 a) 下载 从官网http://pig.apache.org下载最新版本(目前是0.14.0版本),最新版本可以兼容hadop 0.x /1.x / 2.x版本,直接解压到某个目录即可。
1213 0
|
分布式计算 Java Hadoop