Hadoop中pid文件存储

简介:   我的hadoop集群部署在自己电脑虚拟机上,有时候我是挂起虚拟机,第二天再打开发现有些线程就挂了,比如namenode,好奇怪,当时看了一些帖子说是和pid存储有关,找到log看到找不到pid。因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录,进程名命令规则一般是框架名-用户名-角色名.pid,而默认情况下,linux的tmp里面的东西,一天会删除一次。

  我的hadoop集群部署在自己电脑虚拟机上,有时候我是挂起虚拟机,第二天再打开发现有些线程就挂了,比如namenode,好奇怪,当时看了一些帖子说是和pid存储有关,找到log看到找不到pid。因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录,进程名命令规则一般是框架名-用户名-角色名.pid,而默认情况下,linux的tmp里面的东西,一天会删除一次。

  其实每次不用的时候挂壁,用的时候开启就行,只不过很麻烦,我写了脚本没成功,才挂机,一般不要挂起。

一、Hadoop配置

  (1)修改hadoop-env.sh 
  修改如下,如果没有下面的设置,可以直接添加: 

export HADOOP_PID_DIR=/ROOT/server/pids_hadoop_hbase 
export HADOOP_SECURE_DN_PID_DIR=/ROOT/server/pids_hadoop_hbase 

  上述配置,影响 
  NameNode 
  DataNode 
  SecondaryNameNode 
  进程pid存储 

  (2)修改mapred-env.sh 

export HADOOP_MAPRED_PID_DIR=/ROOT/server/pids_hadoop_hbase 

  上述配置,影响 
  JobHistoryServer 
  进程pid存储 

  (3)修改yarn-env.sh 
  修改或者添加(不存在此项配置时),这里面我没有找到pid的环境设置变量,所以就直接添加了 

export YARN_PID_DIR=/ROOT/server/pids_hadoop_hbase 

  上述配置,影响 
  NodeManager 
  ResourceManager 
  进程pid存储

二、Hbase的配置 

 

  修改hbase-env.sh 

export HBASE_PID_DIR=/ROOT/server/pids_hadoop_hbase 

  上述配置,影响 
  HMaster 
  HRegionServer 
  进程pid存储 

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
4月前
|
存储 分布式计算 Hadoop
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
56 2
|
分布式计算 Hadoop Linux
Linux系统下pid与pid文件及Hadoop更改pid文件存储位置
今天来讲Linux系统下pid与pid文件及Hadoop更改pid文件存储位置
378 0
|
存储 分布式计算 运维
Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践
介绍Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践
349 0
|
12天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
14天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
54 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop

热门文章

最新文章

相关实验场景

更多