oozie 运行demo

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 昨晚装好了oozie,能启动了,并且配置了mysql作为数据库,好了,今天要执行oozie自带的demo了,好家伙,一执行就报错!报错很多,就不一一列举了,就说我最后解决的方法吧。
昨晚装好了oozie,能启动了,并且配置了mysql作为数据库,好了,今天要执行oozie自带的demo了,好家伙,一执行就报错!报错很多,就不一一列举了,就说我最后解决的方法吧。
oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties –run
这句话需要在oozie的目录里面执行,然后在网上查了很多资料,最后搞定了,需要修改三个配置文件。
在说修改配置文件之前,还漏了一些东西,先补上,首先我们需要解压目录下面的oozie-examples.tar.gz,oozie-client-3.3.2.tar.gz,
oozie-sharelib-3.3.2.tar.gz,然后把examples和share目录上传到fs上面去。
hadoop fs -put examples examples
hadoop fs -put share share
然后在/etc/profile配置oozie-client的环境变量。
接下来说怎么解决的oozie的吧。
1.修改oozie的conf目录下的oozie-site.xml
增加以下内容:
<property>  
       <name>oozie.services</name>  
        <value>  
            org.apache.oozie.service.SchedulerService,   
            org.apache.oozie.service.InstrumentationService,   
            org.apache.oozie.service.CallableQueueService,   
            org.apache.oozie.service.UUIDService,   
            org.apache.oozie.service.ELService,   
            org.apache.oozie.service.AuthorizationService,      
            org.apache.oozie.service.MemoryLocksService,   
            org.apache.oozie.service.DagXLogInfoService,   
            org.apache.oozie.service.SchemaService,   
            org.apache.oozie.service.LiteWorkflowAppService,   
            org.apache.oozie.service.JPAService,   
            org.apache.oozie.service.StoreService,   
            org.apache.oozie.service.CoordinatorStoreService,   
            org.apache.oozie.service.SLAStoreService,   
            org.apache.oozie.service.DBLiteWorkflowStoreService,   
            org.apache.oozie.service.CallbackService,   
            org.apache.oozie.service.ActionService,   
            org.apache.oozie.service.ActionCheckerService,   
            org.apache.oozie.service.RecoveryService,   
            org.apache.oozie.service.PurgeService,   
            org.apache.oozie.service.CoordinatorEngineService,   
            org.apache.oozie.service.BundleEngineService,   
            org.apache.oozie.service.DagEngineService,   
            org.apache.oozie.service.CoordMaterializeTriggerService,   
            org.apache.oozie.service.StatusTransitService,   
            org.apache.oozie.service.PauseTransitService, 
        org.apache.oozie.service.HadoopAccessorService  
        </value>  
        <description>  
            All services to be created and managed by Oozie Services singleton.   
            Class names must be separated by commas.   
        </description>  
    </property>

<property> 
       <name>oozie.service.ProxyUserService.proxyuser.cenyuhai.hosts</name> 
       <value>*</value> 
       <description> 
           List of hosts the '#USER#' user is allowed to perform 'doAs' 
           operations.

           The '#USER#' must be replaced with the username o the user who is 
           allowed to perform 'doAs' operations.

           The value can be the '*' wildcard or a list of hostnames.

           For multiple users copy this property and replace the user name 
           in the property name. 
       </description> 
   </property>

   <property> 
       <name>oozie.service.ProxyUserService.proxyuser.cenyuhai.groups</name> 
       <value>*</value> 
       <description> 
           List of groups the '#USER#' user is allowed to impersonate users 
           from to perform 'doAs' operations.

           The '#USER#' must be replaced with the username o the user who is 
           allowed to perform 'doAs' operations.

           The value can be the '*' wildcard or a list of groups.

           For multiple users copy this property and replace the user name 
           in the property name. 
       </description> 
   </property>
2.修改oozie-env.sh,增加以下内容
export OOZIE_CONF=${OOZIE_HOME}/conf 
export OOZIE_DATA=${OOZIE_HOME}/data 
export OOZIE_LOG=${OOZIE_HOME}/logs 
export CATALINA_BASE=${OOZIE_HOME}/oozie-server 
export CATALINA_TMPDIR=${OOZIE_HOME}/oozie-server/temp 
export CATALINA_OUT=${OOZIE_LOG}/catalina.out
3.修改所有节点的hadoop的配置文件core-site.xml
<property> 
    <name>hadoop.proxyuser.cenyuhai.hosts</name> 
    <value>hadoop.Master</value> 
 </property> 
 <property> 
    <name>hadoop.proxyuser.cenyuhai.groups</name> 
    <value>cenyuhai</value> 
</property>
然后重启就可以执行了,里面的cenyuhai是我的本机账号。
补充:在进行完上述配置之后,作业可以提交了,但是提交了MR作业之后,在web页面中查看,遇到了一个错误:
JA006: Call to localhost/127.0.0.1:9001 failed on connection exception: java.net.ConnectException: Connection refused
这个问题排查了很久,都没有得到解决 ,最后通过修改job.properties,把jobTracker从localhost:9001改成下面的全称才行,这个可能跟我的hadoop的jobTracker设置有关,所以遇到有这方面问题的童鞋可以试试。
nameNode=hdfs://192.168.1.133:9000
jobTracker=http://192.168.1.133:9001
接下来我们接着运行hive的demo,运行之前记得修改hive的demo的job.properties,改为上面写的那样。
然后提交,提交成功了,但是在web页面上查看状态为KILLED,被干掉了。。。
错误代码:JA018,错误消息:org/apache/hadoop/hive/cli/CliDriver
然后我就想着可能是jar包的问题,删掉share目录下的hive目录里的所有jar包,然后把自己机器上的hive的所有jar包复制到该目录下。
然后上传到共享目录上:
hadoop fs -put share share
再次提交,就可以查看到成功的状态啦!
oozie job -oozie http://localhost:11000/oozie -config examples/apps/hive/job.properties -run
但是这个坑爹的玩意儿,其实是把数据插入到了Derby中。。。无语了,虽然现实成功了,但是没有用。。。因为我们配置了外置的mysql数据库,那怎么办呢?
需要修改workflow.xml,把其中的configuration的配置节改成下面的样子。
<configuration>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
        <property>
                <name>hive.metastore.local</name>
                <value>true</value>
            </property>
            <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://192.168.1.133:3306/hive?createDatabaseIfNotExist=true</value>
            </property>
            <property>
                    <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
            </property>
            <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                    <value>hive</value>
            </property>
            <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>mysql</value>
               </property>
        <property>  
              <name>hive.metastore.warehouse.dir</name>  
              <value>/user/hive/warehouse</value>
        </property> 
 </configuration>
然后提交之后,在hive中就可以查询到你所建立的表啦,oh,yeah!
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
7月前
|
存储 消息中间件 运维
AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践
本文将从三个维度展开论述:首先分析 Iceberg 的技术优势及其成为行业标准的原因,其次详细阐述数据入湖的最佳实践方法,最后重点介绍 AutoMQ 如何利用阿里云 OSS 高效解决 Kafka 数据入湖问题。通过 AutoMQ 和阿里云服务的结合,用户可以轻松实现 Kafka 数据入湖的最佳实践。
461 15
|
12月前
|
存储 SQL 关系型数据库
面试官:你能聊聊 binlog、undo log、redo log 吗?
本文详细解析了MySQL数据库中的三种日志:binlog、undo log和redo log。binlog用于记录数据库的所有表结构变更及数据修改,支持归档、主从复制和数据恢复;undo log用于事务回滚,确保事务的原子性和实现多版本控制;redo log则用于crash-safe,确保数据库异常重启后已提交记录不丢失。文章通过实例和图表,深入浅出地介绍了每种日志的特点、应用场景及其实现机制。适合数据库开发者和运维人员阅读。
627 2
|
NoSQL Java Redis
redis.clients.jedis.exceptions.JedisDataException: ERR Syntax error, try CLIENT (LIST | KILL ip:port
redis.clients.jedis.exceptions.JedisDataException: ERR Syntax error, try CLIENT (LIST | KILL ip:port
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1655 1
开源大数据平台 3.0 技术解读
|
12月前
|
存储 监控 固态存储
如何监控和优化 WAL 日志文件的存储空间使用?
如何监控和优化 WAL 日志文件的存储空间使用?
310 1
|
存储 人工智能 大数据
Data+AI双轮驱动,阿里云存储服务全面升级
近日,2024云栖大会现场,阿里云宣布对其存储服务进行全面升级,围绕Storage for AI与AI in Storage两大领域,提出“4任意+3智能”的升级方向,揭示存储与AI的双向赋能路径。阿里云存储产品将支持更多AI应用高效创新,同时AI也将助力基础设施迭代,助力企业更好地管理数据资产。
|
存储 数据可视化 数据挖掘
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
263 0
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
1344 4
AIGC训练场景下的存储特征研究
|
SQL 分布式计算 HIVE
|
机器学习/深度学习 Web App开发 人工智能
自治代理(Autonomous Agent)
自治代理(Autonomous Agent)是指具备自主决策和行动能力的智能体,能够在给定的环境中自主地感知、学习和做出决策,以实现特定的目标。自治代理能够根据环境的变化和反馈信息,不断地适应和改进自己的行为,从而实现更好的性能和效果。
665 3