Shell遍历hadoop目录的批量操作

简介: Shell遍历hadoop目录的批量操作

需求背景


每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。


解决方法

  1. 通过shell脚本
  2. 通过MR程序(推荐,本篇不做论述)


结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢,对于这样大量且分散的情况,不推荐,但可以提供一个思路。

根据实际情况处理步骤包括:从hdfs获取文件到本地存储,解压gz文件,通过awk逐行扫描获取所需字段,重定向到文本文件,删除解压后的文件以便节省空间。


粗略Shell实现

#!/bin/sh
##############################
## 名称: PickDataFromHdfs
## 描述: 
## 参数: 日期 [20160104]
## 日期: 2016-01-04
##############################
#外部参数
day_id=$1
echo $day_id
#统计 
curtime=`date +%Y%m%d%H%M%S`
#将目录保存到文件
echo "Get File List begin:$curtime"
DIR="/home/hadoop/netlog/source/${day_id}"
hadoop fs -ls ${DIR}|awk '{print $8}' > fileList.txt
# 第一行数据为空,删掉
sed -i  '1d' fileList.txt
echo "the first line is empty ,delte it successfully"
#本地存储目录
LOCAL_DIR="/home/zte/DPI_DATA_EXTRA/dpi_data_temp"
#循环遍历,提取所需数据
cat  /home/zte/DPI_DATA_EXTRA/fileList.txt | while read line
do
    echo "*****************$line  beigin  ${curtime}*****************"
    #获取hdfs文件  copyToLocal  get都可以
     hadoop fs -get $line  $LOCAL_DIR
     echo "${line}    is moved  to   ${LOCAL_DIR} successfully"
    #解压(未解压待验证)
    cd $LOCAL_DIR
    FileGZ=`ls  $LOCAL_DIR`
    #gunzip 
    gunzip $FileGZ
    #逐行提取所需字段
    File=`ls  $LOCAL_DIR`
    echo "decompress file name :$File"
    awk -F'|' '{print $1,$8,$11,$16,$25,$26}'  ${File} >>/home/zte/DPI_DATA_EXTRA/dpi_data_extra/picked_data.txt
    echo " ${File}  data picked finished"
    #节省空间 删除原始文件
    rm -rf ${File} 
    echo "${File} is deleted successfully"
    # 文件上传到hive TODO
    end=`date +%Y%m%d%H%M%S`
    echo "+++++++++++++the Job   finishes , ${end}++++++++++++++++++++++++++"
    echo "+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++"
done


截取:

/home/hadoop/netlog/source/20151229/2015122907591300361017015.txt.gz

获取2015122907591300361017015:

 awk -F / '{print $7}' fileList.txt|cut -d. -f1 
相关文章
|
2月前
|
Shell Linux C语言
【Shell 命令集合 磁盘管理 】Linux 只删除空目录 mrd命令使用教程
【Shell 命令集合 磁盘管理 】Linux 只删除空目录 mrd命令使用教程
32 0
|
2月前
|
Shell Linux API
【Shell 命令集合 磁盘维护 】Linux 查找指定目录下的所有符号链接文件 symlinks 命令使用教程
【Shell 命令集合 磁盘维护 】Linux 查找指定目录下的所有符号链接文件 symlinks 命令使用教程
33 1
|
2月前
|
存储 Shell Linux
【Shell 命令集合 磁盘管理 】⭐⭐ Linux 显示当前shell会话中的目录栈 dirs命令使用教程
【Shell 命令集合 磁盘管理 】⭐⭐ Linux 显示当前shell会话中的目录栈 dirs命令使用教程
28 0
|
2月前
|
存储 Shell Linux
【Shell 命令集合 磁盘管理 】Linux 从远程磁带设备中删除文件或目录rmt命令使用教程
【Shell 命令集合 磁盘管理 】Linux 从远程磁带设备中删除文件或目录rmt命令使用教程
27 0
|
2月前
|
存储 安全 Shell
⭐⭐⭐【Shell 命令集合 磁盘管理 】Linux 显示当前工作目录的路径 pwd命令使用教程
⭐⭐⭐【Shell 命令集合 磁盘管理 】Linux 显示当前工作目录的路径 pwd命令使用教程
46 0
|
2月前
|
Shell Linux C语言
【Shell 命令集合 磁盘管理 】Linux 删除指定目录下的文件和子目录 mmd命令使用指南
【Shell 命令集合 磁盘管理 】Linux 删除指定目录下的文件和子目录 mmd命令使用指南
39 0
|
2月前
|
Shell Linux Serverless
【Shell 命令集合 磁盘管理 】Linux 显示目录中每个子目录的磁盘使用情况 mdu命令使用教程
【Shell 命令集合 磁盘管理 】Linux 显示目录中每个子目录的磁盘使用情况 mdu命令使用教程
28 0
|
2月前
|
Shell Linux C语言
【Shell 命令集合 磁盘管理 】Linux 创建一个新的目录并将其设为当前工作目录 mcd命令使用教程
【Shell 命令集合 磁盘管理 】Linux 创建一个新的目录并将其设为当前工作目录 mcd命令使用教程
34 0
|
2月前
|
存储 Linux Shell
【Shell 命令集合 磁盘管理 】Linux 建一个目录的镜像副本 lndir命令使用教程
【Shell 命令集合 磁盘管理 】Linux 建一个目录的镜像副本 lndir命令使用教程
28 0
|
2月前
|
Shell Linux C语言
【Shell 命令集合 磁盘管理 】Linux 以树状图列出目录的内容 tree命令使用指南
【Shell 命令集合 磁盘管理 】Linux 以树状图列出目录的内容 tree命令使用指南
46 0