袋鼠云日志,日志分析没那么容易

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 袋鼠云日志,一款高性能可扩展的日志集中、搜索和分析产品
从决定做袋鼠云的那一天,我就在思考,做为一家云计算和大数据的技术服务公司,做什么样的产品能给客户提供价值?


从2012年开始,我一直在做一个移动日志分析产品,类似于友盟和TalkingData,不过因为各种原因,这个产品主要为阿里集团内部的各个App提供服务,基本上成为了集团内部标配的工具,每天处理日志量超过1000亿条,顺利渡过了几次双十一大屏的大考,在稳定性和数据准确性方面都经受了挑战。


但除了数据量和电商业务中的交易链路跟踪和转化率的变态需求之外,移动日志分析从某种意义上来说还是简单的,因为日志数据的格式是预定义的,并且标准也由我们团队来制定。控制了源头,后续整个流动过程处理起来就相对容易。


2015年开始,我们也为阿里云的部分客户提供移动分析服务,经常碰到的一个问题就是,除了App,还有PC网页能一起分析么?说实话,这是一个合理的需求,所以今年友盟、CNZZ和缔元信的合并,变成友盟+,是一个非常自然的演进,但要真正做到跨屏数据的融合分析,就不是那么容易的事情了。


那么,除了移动App日志,PC Web日志,还有各种其他的日志,比如Linux的登录日志、Web服务器的Access Log、MySQL数据库的Error Log,Oracle数据库的Alert Log、应用程序打的各种Debug日志,等等。这些日志格式各异,分布在不同服务器的不同地方,如何集中、结构化、分析和展现这些数据,从中挖掘出更多的价值,是一件有挑战的事情。


2003年成立的Splunk应该是最知名的一家用搜索的思路来做日志产品的公司,但最初是以C/S架构做的,其云端产品虽然功能强大,但试用过后易用性只能说一版。而它的独立部署版本,据一些合作伙伴反馈,部署成本也很高。所以类似Sumo Logic、LogEntries、Logz.io等新兴的日志创业公司也是一个接一个,并且都获得了不错的融资。


而开源领域,ELK技术栈也是因为日志的需求而获得了极高的关注度,Elasticsearch、Logstash和Kibaba的组合,对于有一定技术实力的创业公司来说,部署一套不存在问题,但除了搜索功能之外,能用好的案例也不多,还需要投入人力来维护,对于创业公司也是不小的成本。


回到国内,之前有个做安全日志分析的日志宝,被360收购后已经停止运营。而最近在各个技术大会上露面较多的日志易,去年底号称获得了6000万的A轮融资,所以在百度上把Splunk关键字都买了。2015年8月份在36Kr上也有软文说日志易试用了Spark Streaming技术,并且正在开发基于机器学习的Log Reduce 技术。但到今天,实际上以日志易SaaS版的功能来说,完全没有用Spark的必要,Log Reduce也只是借鉴了Sumo Logic的一个概念而没有实际产品化出来。


所以说,日志分析没那么容易。真正要做好,像Splunk一样十几年了还需要面对不断推陈出新的对手。一通产品看下来,只有Sumo Logic真正的做到了创新,尤其是Log Reduce,也确实有技术含量,而不仅仅是一个术语,但实际的使用场景和效果如何,也还有待更多客户的验证。


那么袋鼠云日志能做些什么呢?首先,和所有的日志产品一样,如何更简单的完成日志的集中,统一搜索入口,对日志字段进行分析探索,基于日志的监控告警等都是最基本的需求。除此之外,袋鼠云日志当前版本也有两个独特的产品体验:


1. 日志实时Tail。 运维和开发同学在使用日志的时候,对日志文件执行tail -f file.log是最常用的操作,我们把这个功能也直接做到云日志中了,并且支持按主机、应用和日志类型进行筛选,也支持输入关键字做过滤。


2. 自定义可视化大盘。 不是简单的添加固定模板拼出来的报表,而是可视化配置包括数据源和外观的完整的自定义大盘,并且可以全屏在显示器/电视机等屏幕上完美呈现。


当然,这只是我们创业四个月来发布的第一个公测版本,接下来一个月在简化日志接入和Web日志安全分析等方面也会快速实现。至于Spark on Elasticsearch实现关联分析也在规划中,但能否做到更好,也欢迎对这个方向有兴趣的同学们加入进来,一起做国内最好的日志产品,解放运维和开发,满足业务和老板,把日志这么不容易的事情,真正做到易用好用。


有兴趣了解的朋友,欢迎加我的微信NinGoo细聊。试用可以直接到http://www.dtstack.com注册。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
2月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
515 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
27天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
3月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
374 3
|
5天前
|
SQL 关系型数据库 MySQL
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
MySQL事务日志-Undo Log工作原理分析
|
1月前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
3月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1757 14
MySQL事务日志-Redo Log工作原理分析
|
2月前
|
存储 监控 安全
什么是日志管理,如何进行日志管理?
日志管理是对IT系统生成的日志数据进行收集、存储、分析和处理的实践,对维护系统健康、确保安全及获取运营智能至关重要。本文介绍了日志管理的基本概念、常见挑战、工具的主要功能及选择解决方案的方法,强调了定义管理目标、日志收集与分析、警报和报告、持续改进等关键步骤,以及如何应对数据量大、安全问题、警报疲劳等挑战,最终实现日志数据的有效管理和利用。
166 0
|
3月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
51 0
|
3月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
315 0
|
3月前
|
存储 分布式计算 NoSQL
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
80 0