又快又省!探索日志存储+查询极限

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。

EuroSys(European Conference on Computer Systems)是体系结构的顶级会议(CCF-A,录取率16%上下)。今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。


探索压缩极限之路


在我们生活和工作中,服务器、程序、IoT设备等无时无刻在产生大量的日志。日志数据以增量大、规模大、查询慢著称,在一个中大型的数据公司,每天产生日志量可以达到PB级。开发、运维、安全和运营工作都离不开日志数据,如能够设计出一种高压缩比的算法,能够节省每年EB级的存储成本。


2021年,阿里云SLS 团队与清华大学在存储顶会FAST21上发表了《On the Feasibility of Parser-based Log Compression in Large-Scale Cloud Systems》论文,探索了面向日志数据的压缩问题,在LogReducer的方案中:

  • 压缩率:和通用的gzip、LZMA、专用的LogArchive、Logzip等方法相比,LogReducer是其他四种方法中最好方法的1.11-2.87倍,是常见的gzip方法的1.54-6.78倍。
  • 速度:LogReducer的压缩速度和专注于压缩率的通用压缩方法速度基本持平(0.56-3.16倍)。


在实验中,该方法将全部1.76TB的数据压缩到34.25GB的空间内,它所占的空间是gzip压缩效果所占空间的1/4.5,可以大大节省成本。


在克服了压缩问题后,我们开始考虑,有没有可能可能找到一种方法?既能够查询得快,又存得省?


是否能又快又省


2021-2022年,SLS团队与清华大学再次合作,根据数据和查询特点,提出了一种新的编码方案。在21种TB量级的阿里云真实日生产日志上,原型系统LogGrep(LG)实现了平均30倍的压缩率,并实现对千万条高密压缩的阿里云日志数据检索的秒级响应:


  • 压缩率:同gzip相比,压缩率提升了1.84 – 4.54倍(平均2.61倍);和CLP(多伦多大学研发、已在Twitter系统中部署日志存储系统CLP(OSDI 22)相比)相比,压缩率提升了1.41 – 3.63倍(平均2.17倍);同ElasticSearch相比,压缩率提升了9.63 – 83.23倍(平均23.58倍)。
  • 查询速度:同gzip+grep(ggrep)方法相比延迟降低了6.47 - 80.34倍(平均降低24.82倍);同直接进行grep检索的方法相比,延迟降低了1.89 – 30.40倍(平均降低了13.17倍);同CLP相比;延迟降低了7.54 – 68.33倍(平均降低了27.44倍);和Elasticsearch(ES)相比,在7种日志上延迟更低(7/20)。

(a) Query latency on AliCloud logs (log scale).png

(b) Compression ratio on AliCloud logs.png

结合压缩率和查询速度综合考虑:以一个典型写多读少的日志场景下(存储180天,在生命周期中查询100次),无论是阿里云的样本日志、还是公开的日志测试集,LG综合成本是其他方案的1/3,朝着又快又省迈出了坚定一步。

AliCloud logs&Public logs.png

后续


阿里云日志服务(SLS)团队致力于为可观测数据(Log/Metric/Trace)提供大规模、低成本的存储分析能力,全面提升研发、运维、运营和安全等场景数字化能力。


我们在不断在可观测数据领域,探索“好、多、快、省”的存储与分析方案,后续会在EuroSys23和大家分享论文的相关细节,敬请期待。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4月前
|
存储 监控 Serverless
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
|
4月前
|
SQL 存储 JSON
更快更强,SLS 推出高性能 SPL 日志查询模式
从海量的日志数据中,按照各种灵活的条件进行即时查询搜索,是可观测场景下的基本需求。本文介绍了 SLS 新推出的高性能 SPL 日志查询模式,支持 Unix 风格级联管道式语法,以及各种丰富的 SQL 处理函数。同时通过计算下推、向量化计算等优化,使得 SPL 查询可以在数秒内处理亿级数据,并支持 SPL 过滤结果分布图、随机翻页等特性。
12203 116
|
2月前
|
Web App开发 存储 监控
iLogtail 开源两周年:UC 工程师分享日志查询服务建设实践案例
本文为 iLogtail 开源两周年的实践案例分享,讨论了 iLogtail 作为日志采集工具的优势,包括它在性能上超越 Filebeat 的能力,并通过一系列优化解决了在生产环境中替换 Filebeat 和 Logstash 时遇到的挑战。
125 13
|
2月前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
42 4
|
2月前
|
存储 消息中间件 大数据
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
46 1
|
2月前
|
存储 消息中间件 大数据
大数据-68 Kafka 高级特性 物理存储 日志存储概述
大数据-68 Kafka 高级特性 物理存储 日志存储概述
32 1
|
2月前
|
存储 监控 固态存储
如何监控和优化 WAL 日志文件的存储空间使用?
如何监控和优化 WAL 日志文件的存储空间使用?
|
3月前
|
SQL 存储 缓存
高基数 GroupBy 在 SLS SQL 中的查询加速
本文详细介绍了SLS中的高基数GroupBy查询加速技术。
136 19
|
4月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
3月前
|
存储 SQL 专有云
支持配置审计日志的存储数据库
审计日志作为企业监管平台的重要依据,同时也是“等保三级”认证的必要考察项之一。Dataphin V4.3版本支持设置平台日志的存储数据源,帮助用户快速获取审计日志,同时介绍了不同部署模式的Dataphin如何查看审计日志的方法。
135 5

相关产品

  • 日志服务