Apache Oozie- 安装部署修改 hadoop& 解压拷贝依赖包|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习 Apache Oozie- 安装部署修改 hadoop& 解压拷贝依赖包

开发者学堂课程【Oozie 知识精讲与实战演练Apache Oozie- 安装部署修改hadoop& 解压拷贝依赖包】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/716/detail/12783


Apache Oozie-- 安装部署--修改 hadoop&;解压拷贝依赖包


内容介绍

一.Apache Oozie-- 安装

二.Apache oozie 安装总结


一.Apache Oozie-- 安装

1.修改 hadoop 相关配置

Apache Oozie 的安装部署, Oozie 的安装十分的复杂繁琐,如果当中一小步出错,最终可能就启动不成功,具体操作如下。

(1)配置 httpfs 服务

首先修改 hadoop 当中的相关配置。第一个服务叫做 HTTPfs 服务,可以通过HTTPs 的接口访问文件系统,相当于开启了一个新的功能。修改 hadoop 的配置文件 core-site.xml

hadoop.proxyuser.root.hosts

hadoop.proxyuser.root.groups

*

在这个服务当中主要去配置两个参数,hadoop.proxyuser.root.hosts 允许通过httpfs 方式访问 hdfs 的主机名、域名,*表示所有;hadoop.proxyuser.root,groups 允许访问的客户端的用户组,这两个表示允许任何机器的任何用户组通过方式访问 hdfs 文件系统。

(2)配置 jobhistory 服务

默认情况下,执行的程序并不会去保存起来资源就已经释放了,任务就已经结束,如果后面需要知道执行哪些 mr 程序,可以开启叫做 jobhistory 服务,就可以记录下,mr 程序已经执行了一些相关的过程,包括哪些程序在执行,包括日志信息。

修改 hadoop 的配置文件 mapred-.site.xml

mapreduce.jobhistory.address

node-1:10020

MapReduce JobHistory Server IPC

host:port

mapreduce.jobhistory.webapp.address

node-1:19888

MapReduce JobHistory Server Web Ul

host:port

mapreduce.jobhistory.done-dir

/export/data/history/done

mapreduce.jobhistory.intermediate-done-dir

/export/data/history/done_intermediate

查看配置:

①指定一台机器运行,这里配置服务器,比如指定 node—1:10020。配置一个外部地址,类似于浏览器可以去访问 history,50070是访问 explorer 的,8088是访问cluser 的。也可以配置一个1988,通过页面去访问 history。第三个包括第四个需要配置两个路径,此路径都是配置mr程序存放日志的路径,一个是运行过的存放路径,另一个是正在运行的日志路径,路径按照规范统一放在路径下即可,重启,服务完成。

②接下来查看此方面相关的操作:

首先在服务器上进行修改,再把配置文件拷贝给其他机器即可。在服务器上,选择node—1,cd 到安装 hadoop 的路径下,export servers 下的 hadoop-2.7.5,配置文件是 ETC下。

图片1.png

hadoop 服务是在 core—site 上的,所以使用 vi 编辑器,这里使用增强版的机器打开会发现加上颜色,也可以帮助去验证配置是否正确,如果编辑感觉不安全也可以使用 nod pad++ 远程连接编辑。

图片2.png

此时已经配置完成,是下面两个选项,一个是允许的主机表示,另外一个是允许的主表示,一定要注意当中这些符号是否存在误差,如果出错就比较麻烦,保存一下。

使用 cat 命令进行查询。vim 编译机器,有颜色比较容易理解,有些内容在当中上面讲过不再赘述。

重点是运行的地址,node—1 的1020端口,web 浏览器访问的端口配置19888。配置运行过的存放日志和正在运行的存放日志都需要指定。这些路径会有统一的约束,保存在一个路径下即可。

图片3.png

配置完成之后,在第一台机器进行操作,接下来需要把配置文件拷贝给其他两台的机器,用 scp-r 命令执行 (Cd 不可用,因为是跨机器)。把当前路径下的拷贝到其他机器,确保其他机器没有问题.可以打开其他机器进行相关验证

例如:

Cat/export/servers/hadoop-2.7.5/etc/hadoop/

图片4.png

发现配置完毕

重启集群,Hadoop 必须重启后才可以生效

图片5.png

关闭集群,亚集群关闭:

图片6.png

配置完成后开始进行集群重启工作。

启动 history-server

mr-jobhistory-daemon.sh start historyserver(单独手动启动)

停止 history-server

mr-jobhistory-daemon.sh stop historyserver

通过浏览器访问 Hadoop Jobhistory 的 NEBUI

http://noe-1:19888

图片7.png

使用 GPS 命令进行验证,验证通过后,首先是 start-dfs.sh 等待,stsrt-yarn.sh 等待重启完成

mr-jobhistory-daemon.sh stsrt historyserever 启动成功,再次使用 jps 进行验证,成功后会显示,如果启动失败,请在此路径下验证日志

图片8.png

注意:排错的唯一标准是查看日志

通过主机1988浏览器访问端口可以验证是否成功,列举出,历史执行前执行的记录都在此页面,执行是成功或失败的相关信息都可以看到,可以方便后面观看,这是第一块修改 hadoop 的相关配置。

图片9.png


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
数据采集 缓存 监控
Apache Flume-案例-监控采集文件夹变化 (exec source)|学习笔记
快速学习 Apache Flume-案例-监控采集文件夹变化 (exec source)
Apache Flume-案例-监控采集文件夹变化 (exec source)|学习笔记
|
存储 消息中间件 自然语言处理
Apache Rocket MQ 阿里云大规模商业化实践之路(二)| 学习笔记
快速学习 Apache Rocket MQ 阿里云大规模商业化实践之路。
Apache Rocket MQ 阿里云大规模商业化实践之路(二)| 学习笔记
|
传感器 存储 Shell
走进 Apache Flink(二)|学习笔记
快速学习走进 Apache Flink
218 0
走进 Apache  Flink(二)|学习笔记
|
自然语言处理 Dubbo Cloud Native
基于 Apache Dubbo 的大规模微服务集群实践调优|学习笔记
快速学习基于 Apache Dubbo 的大规模微服务集群实践调优
基于 Apache Dubbo 的大规模微服务集群实践调优|学习笔记
|
SQL 消息中间件 运维
|
存储 分布式计算 监控
|
存储 Java Linux
Apache Flume-- 自定义 sink(扩展)--数据写入本地|学习笔记
Apache Flume-- 自定义 sink(扩展)--数据写入本地
Apache Flume-- 自定义 sink(扩展)--数据写入本地|学习笔记
|
监控 Java 关系型数据库
Apache Flume-自定义 source(扩展)--功能测试实现|学习笔记
快速学习 Apache Flume-自定义 source(扩展)--功能测试实现
 Apache Flume-自定义 source(扩展)--功能测试实现|学习笔记
|
SQL 监控 关系型数据库
Apache Flume-自定义 source(扩展)|学习笔记
快速学习 Apache Flume-自定义 source(扩展),具体实现代码逻辑 Flume 提供了很多内置的 source、sink、channel。但是在某些场合下,它自带的组件可能不满足需求,为此 Flume 官方也提供了相关的接口,我们可以按照它的接口和规范进行开发,实现自己的需求。
Apache Flume-自定义 source(扩展)|学习笔记
|
缓存 监控 Java
Apache Flume-自定义拦截器-功能实现|学习笔记
快速学习 Apache Flume-自定义拦截器-功能实现
Apache Flume-自定义拦截器-功能实现|学习笔记

相关实验场景

更多

推荐镜像

更多