hadoop sdk 优化小结(裁剪、集成kerberos组件、定制等)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: hadoop sdk优化、裁剪、集成kerberos组件、定制化等

01 引言

博主最近在实际的业务中,使用到了DolphinScheduler(一款大数据调度框架)里面的一个工作流的MapReduce任务节点。

主要做的事情就是,在该节点提交一个mr作业到华为云MRS大数据平台里面的yarn,任务节点代码如下:
image.png

从代码得知,它是使用CLI的形式提交作业的,因此需要解决如下几个问题:

  • q1:需要有一个hadoop的安装包;
  • q2: hadoop安装包体积过大,需要裁剪,否则挂载到容器,镜像会很大。
  • q3: hadoop安装包的依赖库必须是第三方的大数据平台(MRS)提供的;
  • q4: 访问MRS需要走kerberos认证,需要集成kerberos组件;
  • q5:集成hadoop安装包到项目。

ok,本文围绕以上几个问题逐个解决。

02 选择合适的hadoop安装包

因为项目需求是使用3.3.1版本的hadoop sdk,因此我去搜了一下仓库:https://repo.huaweicloud.com/apache/hadoop/common/hadoop-3.3.1/
image.png

发现该sdk体积很大,因此选择了版本2.7.7(体积小了一半):
https://repo.huaweicloud.com/apache/hadoop/common/hadoop-2.7.7/
image.png

好了,接下来需要进行裁剪了。

03 裁剪hadoop安装包

安装下载并解压后,可以得知,它的依赖库都在"{解压目录}/share/hadoop/common"下,根据组件类型,按文件夹分类了不同的jar:
image.png

其实除了“common”,其他文件夹都可以删除,为了方便下一步添加MRS平台的依赖库,我把这里的所有文件夹都删除了,只留下common。

这么一来,这个安装包的体积才几M了。

04 hadoop安装包添加依赖库

上一步骤,只留下了common文件夹了,我们需要替换里面的jar,那这些依赖库从哪里来呢?

我们可以看看华为云提供的官方demo:
https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.1.2

IDEA git clone下来,使用mave导入,然后在菜单栏,展开“External Libraries”,可以看到自动依赖hadoop相关的jar:
image.png

注意了,这里依赖的jar就是hadoop 安装包里面如果使用客户端命令,必须用到的内容因此我们需要把这里依赖到的所有jar包都从本地的maven仓库copy出来

最终,我添加了jar包到了刚刚裁剪过的"{解压目录}/share/hadoop/common"目录下:
image.png

验证:

cd ./bin
./hadoop version

image.png

可以看到,我们添加了库到hadoop的安装包,现在可以看做是一个hadoop客户端了。

压缩后,它的体积仅有87.8M了,比之前的体积少了近10倍。
image.png

05 hadoop安装包集成kerberos组件

现在已经有了hadoop的客户端了,如果要正常提交mr作业到MRS平台,还有两个步骤需要走:

  • Step1:修改"{解压目录}/etc/hadoop"目录下的几个文件(一般为:core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml),通常这几个文件都是大数据平台的相关负责人提供,然后我们直接替换就好了;
  • Step2:使用kerberoskinit命令获取身份票据,然后就能正常使用hadoop的相关命令了。

那么,kerberos相关的安装包在哪里下载呢?我们可以进入我们“要使用hadoop安装包的业务服务”所在的物理机,然后使用命令下载(注意:这里的业务服务是部署到k8s集群里面的,默认已经进入了pod容器):

## Ubuntu/Debian系统:  
apt-get install krb5-user krb5-config  

## CentOS/RHEL系统
yum install krb5-workstation krb5-libs  

## 容器里面的系统是(Alpine Linux v3.11)
apk add krb5

安装成功:
image.png

打包这些命令:

## 创建文件夹
mkdir krberos_client

## 复制keberos命令
cp /usr/bin/kinit \
   /usr/bin/klist \
   /usr/bin/kdestroy \
   /usr/bin/kpasswd \
   /usr/bin/kadmin \
   /usr/bin/kvno \
   /usr/bin/ktutil \
   krberos_client/
## 打包keberos命令
tar czvf krberos_client.tar.gz krberos_client/

然后导出(本文是从容器里导出“kubectl cp <namespace>/<pod_name>:<container_path> <local_path>”)

最后,解压这些文件到hadoop安装包的bin目录(没强制要求):
image.png

06 集成安装包到项目

经过前面的描述,已经把hadoop的安装包裁剪了,且集成了kerberos的组件,此时我们需要把这个安装包一起打包到我们的项目,细节不说了,我直接贴出我的Dockerfile

# 使用OpenJDK 8作为构建环境
FROM openjdk:8-jdk-alpine

# 设置工作目录
WORKDIR /app

# 声明JAVA_HOME、HADOOP_HOME等
ENV JAVA_HOME=/usr/lib/jvm/java-1.8-openjdk
ENV HADOOP_HOME=/data/hadoop
ENV PATH $JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH


RUN mkdir -p /data/hadoop
COPY hadoop-mrs /data/hadoop
RUN cp /data/hadoop/bin/k* /usr/local/bin/ && \      ## 复制kerberos相关的命令到bin目录,直接就能使用
    cp /data/hadoop/etc/hadoop/krb5.conf /etc/   ## 复制krb5.conf到etc目录,keberos命令从这个路径读取kdc、realm等信息

## 其它....

以上有几个细节需要注意:

  1. 安装包bin目录下的kerberos命令必须复制到/user/local/bin目录,这样才可以直接使用kerberos相关的客户端命令
  2. krb5.conf文件必须放到etc目录,因为kerberos命令默认就是从该路径的krb5.conf文件读取kdc、realm等信息的
  3. ENV必须声明JAVA_HOME、HADOOP_HOME、PATH这些信息,这样才能直接使用hadoop命令

最后,进入容器,看看执行的效果,可以看到命令一切正常:
image.png

上述仅仅是验证命令的可行性,如果要真正提交mr作业到mrs,你可能需要这样执行命令:

# 获取用户kerberos 票据
kinit -kt [user.keytab文件路径] [用户principal]
# 查询是否获取成功
klist
# 使用hadoop 命令
hdfs dfs -list

如下(目录可能不同,之前验证通过的,做示例展示):
image.png

备注:Hadoop客户端首先会检查 KRB5CCNAME 变量是否存在,并使用该变量指定的路径来读取Kerberos票据,如果该变量不存在,则会使用默认的票据缓存路径来读取票据(即图片klist命令结果中的/tmp//krb5cc_0)。

06 文末

附:

本文主要就是讲解了hadoop sdk的裁剪、集成kerberos组件等操作,纯属经验之谈,希望能帮助到大家,谢谢大家的阅读,本文完!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
1月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
|
5月前
|
存储 文字识别 自然语言处理
通义大模型在文档自动化处理中的高效部署指南(OCR集成与批量处理优化)
本文深入探讨了通义大模型在文档自动化处理中的应用,重点解决传统OCR识别精度低、效率瓶颈等问题。通过多模态编码与跨模态融合技术,通义大模型实现了高精度的文本检测与版面分析。文章详细介绍了OCR集成流程、批量处理优化策略及实战案例,展示了动态批处理和分布式架构带来的性能提升。实验结果表明,优化后系统处理速度可达210页/分钟,准确率达96.8%,单文档延迟降至0.3秒,为文档处理领域提供了高效解决方案。
662 1
|
2月前
|
机器学习/深度学习 运维 算法
【EI复现】一种建筑集成光储系统规划运行综合优化方法(Matlab代码实现)
【EI复现】一种建筑集成光储系统规划运行综合优化方法(Matlab代码实现)
|
8月前
|
安全 Java 数据安全/隐私保护
微服务——SpringBoot使用归纳——Spring Boot中集成 Shiro——Shiro 三大核心组件
本课程介绍如何在Spring Boot中集成Shiro框架,主要讲解Shiro的认证与授权功能。Shiro是一个简单易用的Java安全框架,用于认证、授权、加密和会话管理等。其核心组件包括Subject(认证主体)、SecurityManager(安全管理员)和Realm(域)。Subject负责身份认证,包含Principals(身份)和Credentials(凭证);SecurityManager是架构核心,协调内部组件运作;Realm则是连接Shiro与应用数据的桥梁,用于访问用户账户及权限信息。通过学习,您将掌握Shiro的基本原理及其在项目中的应用。
330 0
|
9月前
|
前端开发 安全 开发工具
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
593 90
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
|
5月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
146 2
|
9月前
|
前端开发 JavaScript 开发工具
【04】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-正确安装鸿蒙SDK-结构目录介绍-路由介绍-帧动画(ohos.animator)书写介绍-能够正常使用依赖库等-ArkUI基础组件介绍-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
【04】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-正确安装鸿蒙SDK-结构目录介绍-路由介绍-帧动画(ohos.animator)书写介绍-能够正常使用依赖库等-ArkUI基础组件介绍-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
586 5
【04】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-正确安装鸿蒙SDK-结构目录介绍-路由介绍-帧动画(ohos.animator)书写介绍-能够正常使用依赖库等-ArkUI基础组件介绍-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
|
10月前
|
人工智能 数据可视化 开发者
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
857 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
|
10月前
|
存储 关系型数据库 MySQL
Openldap集成Kerberos
Openldap集成Kerberos
201 21
|
存储 Java 开发工具
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
阿里云OSS(Object Storage Service)是一种安全、可靠且成本低廉的云存储服务,支持海量数据存储。用户可通过网络轻松存储和访问各类文件,如文本、图片、音频和视频等。使用OSS后,项目中的文件上传业务无需在服务器本地磁盘存储文件,而是直接上传至OSS,由其管理和保障数据安全。此外,介绍了OSS服务的开通流程、Bucket创建、AccessKey配置及环境变量设置,并提供了Java SDK示例代码,帮助用户快速上手。最后,展示了如何通过自定义starter简化工具类集成,实现便捷的文件上传功能。
3328 7
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
下一篇
oss云网关配置