about云日志分析实战之清洗日志小实例2:导入日志清洗代码并打包

简介: about云日志分析实战之清洗日志小实例2:导入日志清洗代码并打包

前面测试了一下spark,准备好环境,下面开始动工源码。分析清洗日志,这里面的代码还是比较复杂的。对于iis日志,可参考

about云日志分析项目准备10-3:Spark Local模式之Log文本清洗

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21135

对于Apache日志,国外已经实现。源码git地址

https://github.com/alvinj/ScalaApacheAccessLogParser


网盘下载地址

链接:http://pan.baidu.com/s/1jIj87wM 密码:p0zd


这里从上面下载下来,然后导入IntelliJ IDEA ,然后打包。


导入源码


首先file-》open


f8800c461084022789af28780c25ed7d.jpg

选择源码文件

3b78524f91e981a926a2f598961ea4b0.jpg

导入之后看到下面内容

50b9be398773b86430d1c0232dba3196.jpg

对于spark环境不熟悉或则不会操作可参考

spark开发环境详细教程1:IntelliJ IDEA使用详细说明

http://www.aboutyun.com/forum.php?mod=viewthread&tid=22320


spark开发环境详细教程3:IntelliJ IDEA创建项目

http://www.aboutyun.com/forum.php?mod=viewthread&tid=22410


打包


上面我们准备了源码,然后将源码打成jar包,供我们项目中使用。

首先打开project structure,

2d2fd255683cd8ec6e8a8ca541bb4855.jpg

选择依赖

b8778e1c0239a1cd69f3a780dad6cc08.jpg

填写主类

1411355ccf9d06002558ee633faed27f.jpg

点击确定

8997ddb33ada95fa6efcb603ac0da916.jpg

选择菜单 Build Artifacts

b28a5b0f1bf7d141988ef227618b3f9c.jpg点击build

c39b046b4d4356de2dc999613c9e1e30.jpg

最后生成jar包,在terminal中会显示输出jar包路径

ed203225a217eb9cfb973117e2ab5445.jpg

找到生成jar包。我们就可以使用了。

d62cbbf0fac347715f00320ccea07a1b.jpg

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
监控 安全 BI
防火墙事件日志及日志分析
在网络安全防护体系中,防火墙作为抵御外部威胁的第一道防线,其重要性不言而喻。而对防火墙日志进行分析,更是深入了解网络流量、发现潜在安全风险的关键手段。
932 1
|
监控 测试技术 Go
告别传统Log追踪!GOAT如何用HTTP接口重塑代码监控
本文介绍了GOAT(Golang Application Tracing)工具的使用方法,通过一个Echo问答服务实例,详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景,助力Go项目质量保障与平稳发布。工具以轻量高效的特点,为开发团队提供数据支持,优化决策流程。
886 90
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
610 9
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
1251 55
|
SQL 监控 关系型数据库
MySQL日志分析:binlog、redolog、undolog三大日志的深度探讨。
数据库管理其实和写小说一样,需要规划,需要修订,也需要有能力回滚。理解这些日志的作用与优化,就像把握写作工具的使用与运用,为我们的数据库保驾护航。
885 23
|
存储 缓存 关系型数据库
图解MySQL【日志】——Redo Log
Redo Log(重做日志)是数据库中用于记录数据页修改的物理日志,确保事务的持久性和一致性。其主要作用包括崩溃恢复、提高性能和保证事务一致性。Redo Log 通过先写日志的方式,在内存中缓存修改操作,并在适当时候刷入磁盘,减少随机写入带来的性能损耗。WAL(Write-Ahead Logging)技术的核心思想是先将修改操作记录到日志文件中,再择机写入磁盘,从而实现高效且安全的数据持久化。Redo Log 的持久化过程涉及 Redo Log Buffer 和不同刷盘时机的控制参数(如 `innodb_flush_log_at_trx_commit`),以平衡性能与数据安全性。
920 5
图解MySQL【日志】——Redo Log
|
缓存 Java 编译器
|
监控 Java 应用服务中间件
Tomcat log日志解析
理解和解析Tomcat日志文件对于诊断和解决Web应用中的问题至关重要。通过分析 `catalina.out`、`localhost.log`、`localhost_access_log.*.txt`、`manager.log`和 `host-manager.log`等日志文件,可以快速定位和解决问题,确保Tomcat服务器的稳定运行。掌握这些日志解析技巧,可以显著提高运维和开发效率。
1726 13