python调用mrjob实现hadoop的mapreduce日志解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
日志服务 SLS,月写入数据量 50GB 1个月
云解析 DNS,旗舰版 1个月
简介:

咱们一般写mapreduce是通过java和streaming来写的,身为pythoner的我,

java不会,没办法就用streaming来写mapreduce日志分析。 这里要介绍一个

模块,是基于streaming搞的东西。


mrjob 可以让用 Python 来编写 MapReduce 运算,并在多个不同平台上运行,你可以:

  • 使用纯 Python 编写多步的 MapReduce 作业

  • 在本机上进行测试

  • 在 Hadoop 集群上运行


pip 的安装方法:

1
pip install mrjob


我测试的脚本

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#coding:utf- 8
from mrjob.job  import  MRJob
import  re
#xiaorui.cc
#WORD_RE = re.compile(r "[\w']+" )
WORD_RE = re.compile(r "\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}" )
class  MRWordFreqCount(MRJob):
     def mapper(self, word, line):
         for  word  in  WORD_RE.findall(line):
             yield word.lower(),  1
     def combiner(self, word, counts):
         yield word, sum(counts)
     def reducer(self, word, counts):
         yield word, sum(counts)
if  __name__ ==  '__main__' :
     MRWordFreqCount.run()


用法算简单:

python i.py -r inline input1 input2 input3 > out 命令可以将处理多个文件的结果输出到out文件里面。

本地模拟hadoop运行:python 1.py -r local <input> output

这个会把结果输出到output里面,这个output必须写。

hadoop集群上运行:python 1.py -r hadoop <input> output


执行脚本 ~

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
[root@kspc ~]# python mo.py -r local  < 10.7 . 17.7 -dnsquery.log. 1 > output
no configs found; falling back on auto-configuration
no configs found; falling back on auto-configuration
creating tmp directory /tmp/mo.root. 20131224.040935 . 241241
reading from STDIN
writing to /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00000
> /usr/bin/python mo.py --step-num= 0  --mapper /tmp/mo.root. 20131224.040935 . 241241 /input_part- 00000  | sort | /usr/bin/python mo.py --step-num= 0  --combiner > /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00000
writing to /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00001
> /usr/bin/python mo.py --step-num= 0  --mapper /tmp/mo.root. 20131224.040935 . 241241 /input_part- 00001  | sort | /usr/bin/python mo.py --step-num= 0  --combiner > /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00001
Counters from step  1 :
   (no counters found)
writing to /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper-sorted
> sort /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00000  /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -mapper_part- 00001
writing to /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00000
> /usr/bin/python mo.py --step-num= 0  --reducer /tmp/mo.root. 20131224.040935 . 241241 /input_part- 00000  > /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00000
writing to /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00001
> /usr/bin/python mo.py --step-num= 0  --reducer /tmp/mo.root. 20131224.040935 . 241241 /input_part- 00001  > /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00001
Counters from step  1 :
   (no counters found)
Moving /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00000  -> /tmp/mo.root. 20131224.040935 . 241241 /output/part- 00000
Moving /tmp/mo.root. 20131224.040935 . 241241 /step- 0 -reducer_part- 00001  -> /tmp/mo.root. 20131224.040935 . 241241 /output/part- 00001
Streaming  final  output from /tmp/mo.root. 20131224.040935 . 241241 /output
removing tmp directory /tmp/mo.root. 20131224.040935 . 241241

执行的时候,资源的占用情况。

133630767.jpg


发现一个很奇妙的东西,mrjob居然调用shell下的sort来排序。。。。

133937941.jpg


为了更好的理解mrjob的用法,再来个例子。


1
2
3
4
5
6
7
8
9
10
11
12
13
from mrjob.job  import  MRJob
#from xiaorui.cc
class  MRWordFrequencyCount(MRJob):
#把东西拼凑起来
     def mapper(self, _, line):
         yield  "chars" , len(line)
         yield  "words" , len(line.split())
         yield  "lines" 1
#总结kv
     def reducer(self, key, values):
         yield key, sum(values)
if  __name__ ==  '__main__' :
     MRWordFrequencyCount.run()


看下结果:

135509171.jpg

下面是官网给的一些个用法:


我们可以看到他是支持hdfs和s3存储的 !

Running your job different ways

The most basic way to run your job is on the command line:

$ python my_job.py input.txt

By default, output will be written to stdout.

You can pass input via stdin, but be aware that mrjob will just dump it to a file first:

$ python my_job.py < input.txt

You can pass multiple input files, mixed with stdin (using the - character):

$ python my_job.py input1.txt input2.txt - < input3.txt

By default, mrjob will run your job in a single Python process. This provides the friendliest debugging experience, but it’s not exactly distributed computing!

You change the way the job is run with the -r/--runner option. You can use -rinline (the default), -rlocal-rhadoop, or -remr.

To run your job in multiple subprocesses with a few Hadoop features simulated, use -rlocal.

To run it on your Hadoop cluster, use -rhadoop.

If you have Elastic MapReduce configured (see Elastic MapReduce Quickstart), you can run it there with -remr.

Your input files can come from HDFS if you’re using Hadoop, or S3 if you’re using EMR:

$ python my_job.py -r emr s3://my-inputs/input.txt
$ python my_job.py -r hadoop hdfs://my_home/input.txt


 本文转自 rfyiamcool 51CTO博客,原文链接:http://blog.51cto.com/rfyiamcool/1344368 ,如需转载请自行联系原作者



相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
6天前
|
测试技术 开发者 Python
深入浅出:Python中的装饰器解析与应用###
【10月更文挑战第22天】 本文将带你走进Python装饰器的世界,揭示其背后的魔法。我们将一起探索装饰器的定义、工作原理、常见用法以及如何自定义装饰器,让你的代码更加简洁高效。无论你是Python新手还是有一定经验的开发者,相信这篇文章都能为你带来新的启发和收获。 ###
8 1
|
6天前
|
设计模式 测试技术 开发者
Python中的装饰器深度解析
【10月更文挑战第24天】在Python的世界中,装饰器是那些能够为函数或类“添彩”的魔法工具。本文将带你深入理解装饰器的概念、工作原理以及如何自定义装饰器,让你的代码更加优雅和高效。
|
11天前
|
存储 监控 安全
深入解析Sysmon日志:增强网络安全与威胁应对的关键一环
在不断演进的网络安全领域中,保持对威胁的及时了解至关重要。Sysmon日志在这方面发挥了至关重要的作用,通过提供有价值的见解,使组织能够加强其安全姿态。Windows在企业环境中是主导的操作系统,因此深入了解Windows事件日志、它们的独特特性和局限性,并通过Sysmon进行增强,变得至关重要。
|
16天前
|
XML 前端开发 数据格式
Beautiful Soup 解析html | python小知识
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。【10月更文挑战第11天】
48 2
|
16天前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
19天前
|
Web App开发 SQL 数据库
使用 Python 解析火狐浏览器的 SQLite3 数据库
本文介绍如何使用 Python 解析火狐浏览器的 SQLite3 数据库,包括书签、历史记录和下载记录等。通过安装 Python 和 SQLite3,定位火狐数据库文件路径,编写 Python 脚本连接数据库并执行 SQL 查询,最终输出最近访问的网站历史记录。
|
20天前
|
机器学习/深度学习 算法 Python
深度解析机器学习中过拟合与欠拟合现象:理解模型偏差背后的原因及其解决方案,附带Python示例代码助你轻松掌握平衡技巧
【10月更文挑战第10天】机器学习模型旨在从数据中学习规律并预测新数据。训练过程中常遇过拟合和欠拟合问题。过拟合指模型在训练集上表现优异但泛化能力差,欠拟合则指模型未能充分学习数据规律,两者均影响模型效果。解决方法包括正则化、增加训练数据和特征选择等。示例代码展示了如何使用Python和Scikit-learn进行线性回归建模,并观察不同情况下的表现。
177 3
|
22天前
|
网络协议 Python
IP地址探秘:识别与解析的Python之旅 🚀
《IP地址探秘:识别与解析的Python之旅》通过Python的`ipaddress`模块,轻松实现IP地址的分类(如单播、多播、私有、环回或公有)及子网内所有IP的生成,使网络管理更加便捷高效。示例代码直观展示了功能实现过程。
|
13天前
|
存储 关系型数据库 MySQL
MySQL中的Redo Log、Undo Log和Binlog:深入解析
【10月更文挑战第21天】在数据库管理系统中,日志是保障数据一致性和完整性的关键机制。MySQL作为一种广泛使用的关系型数据库管理系统,提供了多种日志类型来满足不同的需求。本文将详细介绍MySQL中的Redo Log、Undo Log和Binlog,从背景、业务场景、功能、底层实现原理、使用措施等方面进行详细分析,并通过Java代码示例展示如何与这些日志进行交互。
16 0
|
21天前
|
运维 安全 网络协议
Python 网络编程:端口检测与IP解析
本文介绍了使用Python进行网络编程的两个重要技能:检查端口状态和根据IP地址解析主机名。通过`socket`库实现端口扫描和主机名解析的功能,并提供了详细的示例代码。文章最后还展示了如何整合这两部分代码,实现一个简单的命令行端口扫描器,适用于网络故障排查和安全审计。

热门文章

最新文章