前面测试了一下spark,准备好环境,下面开始动工源码。分析清洗日志,这里面的代码还是比较复杂的。对于iis日志,可参考
about云日志分析项目准备10-3:Spark Local模式之Log文本清洗
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21135
对于Apache日志,国外已经实现。源码git地址
https://github.com/alvinj/ScalaApacheAccessLogParser
网盘下载地址
链接:http://pan.baidu.com/s/1jIj87wM 密码:p0zd
这里从上面下载下来,然后导入IntelliJ IDEA ,然后打包。
导入源码
首先file-》open
选择源码文件
导入之后看到下面内容
对于spark环境不熟悉或则不会操作可参考
spark开发环境详细教程1:IntelliJ IDEA使用详细说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22320
spark开发环境详细教程3:IntelliJ IDEA创建项目
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22410
打包
上面我们准备了源码,然后将源码打成jar包,供我们项目中使用。
首先打开project structure,
选择依赖
填写主类
点击确定
选择菜单 Build Artifacts
点击build
最后生成jar包,在terminal中会显示输出jar包路径
找到生成jar包。我们就可以使用了。