hdfs日志上传脚本(三)-阿里云开发者社区

hdfs日志上传脚本(三)

2017-11-22 1322

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介：

为了上传文件到hdfs，我们曾写过脚本，也曾搭过webdav；但是原来写脚本时，我们把日志下载到linux服务器，这样就多了一步磁盘I/O操作，而通过webdav直接从windows上传日志到hdfs又遇到了些麻烦。

下一步，我们想测试一下flume等日志收集系统，看看它们是否能够更方便、更实时地上传日志到hdfs。

但现在，我们暂且回到脚本方式，但换了一下思路：原始日志在windows上直接处理成lzo格式，然后放到共享目录，我们linux服务器挂载这个windows共享目录，然后调用Hadoop命令进行上传，这样不就减少了本地磁盘I/O操作了吗？看来思路很重要。

这次的脚本，我们用两台linux服务器都挂载windows共享目录，两台linux服务器上都运行脚本，只需要在上传之前判断一下日志文件是否冲突，通过改名的方法达到独占的目的。

#!/bin/bash
# 2012-03-02 by qinshan.li
#
export PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin
windows="/hdfs/track_1469 /hdfs/track_1470 /hdfs/track_1722"
TRACK=/log/source/iCast_iFocus_track
for DIR in $windows
do
find $DIR -type f -name "*.lzo" |while read FILE
do
if [ -f "$FILE" ]; then
if ! lsof |grep $FILE; then
Original=$(echo $FILE |awk -F '/' '{print $4}')
New=${L_N}_170
mv $DIR/$Original $DIR/$New
L_size=$(ls -l $DIR/$New |awk '{print $5}')
if ~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -copyFromLocal $DIR/$New $TRACK
then
H_size=$(~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -ls $TRACK/$New |awk '{print $5}')
RAND=0
while [ "$H_size" -ne "$L_size" ]; do
RAND=$(($RAND+1))
if [ $RAND -gt 5 ]; then
echo -e "Have tried 5 times to upload $FILE !" |mail -s "track jiaxing upload failure" -c aa@123.com bb@123.com -- -f bb@123.com -F bb
break
fi
~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -rm $TRACK/$New
~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -copyFromLocal $DIR/$New $TRACK
done
fi
~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -mv $TRACK/$New $TRACK/$Original
rm -f $DIR/$New
fi
fi
done
done

做计划任务的时候，写个脚本判断一下上面的脚本是否正在运行，是的话就先等一下，否的话，使用source的方式调用上面的脚本。

本文转自 li_qinshan 51CTO博客，原文链接:
http://blog.51cto.com/share/795404

hdfs日志上传脚本(三)