00【在线日志分析】之项目概述和GitHub项目地址

简介: 1.前期基本架构图2.最终基本架构图           3.版本 Flume: 1.7  Hadoop: 2.7.3 Scala: 2.11 Kafka: 0.10.
1.前期基本架构图



2.最终基本架构图
         

3.版本

 Flume: 1.7
 Hadoop: 2.7.3
 Scala: 2.11
 Kafka: 0.10.1.0
 Spark: 2.0.2
InfluxDB: 1.2.0
Grafana: 4.1.1

 maven: 3.3.9
  
4.主要目的
 主要是想基于Exec Source开发自定义插件AdvancedExecSource,将机器名称 和 服务名称 添加到cdh 服务的角色log数据的每一行前面,则格式为:机器名称 服务名称 年月日 时分秒.毫秒 日志级别 日志信息  
 然后在后面的spark streaming 实时计算我们所需求:比如统计每台机器的服务的
每秒出现的error次数 、统计每5秒的warn,error次数等等;
 来实时可视化展示和邮件短信、微信企业号通知。
 

  其实主要我们现在的很多监控服务基本达不到秒级的通知,都为5分钟等等,为了方便我们自己的维护;
  其实对一些即将出现的问题可以提前预知;
  其实最主要可以有效
扩展到实时计算数据库级别日志,比如MySQL慢查询日志,nginx,tomcat,linux的系统级别日志等等

  
 

5.大概流程

1.搭建hadoop cluster
2.eclipse 导入flume源代码(window7 安装maven,eclipse,eclipse与maven集成)
3.开发flume-ng 自定义插件
4.flume 收集,汇聚到hdfs(主要测试是否汇聚成功,后期也可以做离线处理)
5.flume 收集,汇聚到kafka

6.搭建kafka monitor
7.搭建 spark client
8.window7装ieda开发工具
9.idea开发 spark streaming 的wc
10.读取kafka日志,开发spark streaming的这块日志分析
11.写入influxdb
12.grafana可视化展示
13.集成邮件

说明:针对自身情况,自行选择,步骤如上,但不是固定的,有些顺序是可以打乱的,例如开发工具的安装,可以一起操作的,再如这几个组件的下载编译,如果不
想编译可以直接下tar包的,自行选择就好,但是建议还是自己编译,遇到坑才能更好的记住这个东西,本身这个项目就是学习提升的过程,要是什么都是现成的,
那就没什么意义了


 
6.百度云:   http://pan.baidu.com/s/1skXCh8T 密码:m2rs

7.GitHub:  https://github.com/Hackeruncle/OnlineLogAnalysis (欢迎大家单击Star,持续关注)
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
28天前
|
人工智能 文字识别 异构计算
关于github开源ocr项目的疑问
小白尝试Python OCR学习,遇到报错。尝试Paddle OCR部署失败,Tesseract OCR在Colab误操作后恢复失败。EasyOCR在Colab和阿里天池Notebook成功,但GPU资源不足。其他平台部署不顺,决定使用WebUI或阿里云轻应用。求教OCR项目部署到本地及简单OCR项目推荐。
26 1
|
29天前
|
人工智能 自然语言处理 iOS开发
『GitHub项目圈选19』推荐5款本周 让人爱不释手 的开源项目
『GitHub项目圈选19』推荐5款本周 让人爱不释手 的开源项目
|
29天前
|
存储 Web App开发 人工智能
『GitHub项目圈选18』推荐5款本周 超实用 的开源项目
『GitHub项目圈选18』推荐5款本周 超实用 的开源项目
|
29天前
|
人工智能 物联网 机器人
『GitHub项目圈选17』推荐5款本周 火火火 的AI开源项目
『GitHub项目圈选17』推荐5款本周 火火火 的AI开源项目
155 1
|
29天前
|
JSON 搜索推荐 程序员
『GitHub项目圈选15』推荐5款本周 深受程序员喜爱 的开源项目
『GitHub项目圈选15』推荐5款本周 深受程序员喜爱 的开源项目
|
29天前
|
人工智能 自然语言处理 NoSQL
『GitHub项目圈选13』推荐5款本周 让人爱不释手 的开源项目
『GitHub项目圈选13』推荐5款本周 让人爱不释手 的开源项目
|
29天前
|
自然语言处理 Cloud Native 前端开发
『GitHub项目圈选16』推荐5款本周 大佬狂爱 的开源项目
『GitHub项目圈选16』推荐5款本周 大佬狂爱 的开源项目
|
16天前
|
Java
使用Java代码打印log日志
使用Java代码打印log日志
71 1
|
17天前
|
Linux Shell
Linux手动清理Linux脚本日志定时清理日志和log文件执行表达式
Linux手动清理Linux脚本日志定时清理日志和log文件执行表达式
70 1
|
21天前
|
SQL 关系型数据库 MySQL
MySQL数据库,可以使用二进制日志(binary log)进行时间点恢复
对于MySQL数据库,可以使用二进制日志(binary log)进行时间点恢复。二进制日志是MySQL中记录所有数据库更改操作的日志文件。要进行时间点恢复,您需要执行以下步骤: 1. 确保MySQL配置文件中启用了二进制日志功能。在配置文件(通常是my.cnf或my.ini)中找到以下行,并确保没有被注释掉: Copy code log_bin = /path/to/binary/log/file 2. 在需要进行恢复的时间点之前创建一个数据库备份。这将作为恢复的基准。 3. 找到您要恢复到的时间点的二进制日志文件和位置。可以通过执行以下命令来查看当前的二进制日志文件和位