又快又省!探索日志存储+查询极限

简介: 今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。

EuroSys(European Conference on Computer Systems)是体系结构的顶级会议(CCF-A,录取率16%上下)。今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。


探索压缩极限之路


在我们生活和工作中,服务器、程序、IoT设备等无时无刻在产生大量的日志。日志数据以增量大、规模大、查询慢著称,在一个中大型的数据公司,每天产生日志量可以达到PB级。开发、运维、安全和运营工作都离不开日志数据,如能够设计出一种高压缩比的算法,能够节省每年EB级的存储成本。


2021年,阿里云SLS 团队与清华大学在存储顶会FAST21上发表了《On the Feasibility of Parser-based Log Compression in Large-Scale Cloud Systems》论文,探索了面向日志数据的压缩问题,在LogReducer的方案中:

  • 压缩率:和通用的gzip、LZMA、专用的LogArchive、Logzip等方法相比,LogReducer是其他四种方法中最好方法的1.11-2.87倍,是常见的gzip方法的1.54-6.78倍。
  • 速度:LogReducer的压缩速度和专注于压缩率的通用压缩方法速度基本持平(0.56-3.16倍)。


在实验中,该方法将全部1.76TB的数据压缩到34.25GB的空间内,它所占的空间是gzip压缩效果所占空间的1/4.5,可以大大节省成本。


在克服了压缩问题后,我们开始考虑,有没有可能可能找到一种方法?既能够查询得快,又存得省?


是否能又快又省


2021-2022年,SLS团队与清华大学再次合作,根据数据和查询特点,提出了一种新的编码方案。在21种TB量级的阿里云真实日生产日志上,原型系统LogGrep(LG)实现了平均30倍的压缩率,并实现对千万条高密压缩的阿里云日志数据检索的秒级响应:


  • 压缩率:同gzip相比,压缩率提升了1.84 – 4.54倍(平均2.61倍);和CLP(多伦多大学研发、已在Twitter系统中部署日志存储系统CLP(OSDI 22)相比)相比,压缩率提升了1.41 – 3.63倍(平均2.17倍);同ElasticSearch相比,压缩率提升了9.63 – 83.23倍(平均23.58倍)。
  • 查询速度:同gzip+grep(ggrep)方法相比延迟降低了6.47 - 80.34倍(平均降低24.82倍);同直接进行grep检索的方法相比,延迟降低了1.89 – 30.40倍(平均降低了13.17倍);同CLP相比;延迟降低了7.54 – 68.33倍(平均降低了27.44倍);和Elasticsearch(ES)相比,在7种日志上延迟更低(7/20)。

(a) Query latency on AliCloud logs (log scale).png

(b) Compression ratio on AliCloud logs.png

结合压缩率和查询速度综合考虑:以一个典型写多读少的日志场景下(存储180天,在生命周期中查询100次),无论是阿里云的样本日志、还是公开的日志测试集,LG综合成本是其他方案的1/3,朝着又快又省迈出了坚定一步。

AliCloud logs&Public logs.png

后续


阿里云日志服务(SLS)团队致力于为可观测数据(Log/Metric/Trace)提供大规模、低成本的存储分析能力,全面提升研发、运维、运营和安全等场景数字化能力。


我们在不断在可观测数据领域,探索“好、多、快、省”的存储与分析方案,后续会在EuroSys23和大家分享论文的相关细节,敬请期待。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
存储 JSON 缓存
十行代码让日志存储降低80%
十行代码让日志存储降低80%
66 2
|
1月前
|
SQL 监控 关系型数据库
深入理解MySQL日志:通用查询、慢查询和错误日志详解
深入理解MySQL日志:通用查询、慢查询和错误日志详解
123 0
|
2月前
|
存储 数据库
ALTER MATERIALIZED VIEW LOG :语句来更改现有物化视图日志的存储特征或类型。
`ALTER MATERIALIZED VIEW LOG` 语句用于修改已有的物化视图日志的存储属性或类型。配合示例中的动画图像(由于格式限制无法显示),该语句帮助优化数据库的性能和管理。
46 0
|
12天前
|
存储 监控 数据可视化
无需重新学习,使用 Kibana 查询/可视化 SLS 数据
本文演示了使用 Kibana 连接 SLS ES 兼容接口进行查询和分析的方法。
|
6天前
|
存储 监控 Apache
查询提速11倍、资源节省70%,阿里云数据库内核版 Apache Doris 在网易日志和时序场景的实践
网易的灵犀办公和云信利用 Apache Doris 改进了大规模日志和时序数据处理,取代了 Elasticsearch 和 InfluxDB。Doris 实现了更低的服务器资源消耗和更高的查询性能,相比 Elasticsearch,查询速度提升至少 11 倍,存储资源节省达 70%。Doris 的列式存储、高压缩比和倒排索引等功能,优化了日志和时序数据的存储与分析,降低了存储成本并提高了查询效率。在灵犀办公和云信的实际应用中,Doris 显示出显著的性能优势,成功应对了数据增长带来的挑战。
查询提速11倍、资源节省70%,阿里云数据库内核版 Apache Doris 在网易日志和时序场景的实践
|
13天前
|
SQL 调度 Swift
【一文看懂】Havenask日志查询
本次分享内容为Havenask的日志查询,文章包含了具体查询步骤和举例、实操演示,希望可以帮助大家更好的使用Havenask。
87 0
|
5月前
|
存储 监控 安全
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(1)
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(1)
179 1
|
5月前
|
SQL 存储 安全
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(2)
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(2)
209 0
|
23天前
|
SQL 存储 监控
SLS 查询新范式:使用 SPL 对日志进行交互式探索
像 Unix 命令一样支持多级管道级联,像加工预览一样实时处理查询结果,更便捷的交互,更丰富的算子,更灵活的探索半结构化日志,快来试试使用 SPL 语言查询日志数据吧~
46300 4
|
2月前
|
存储 移动开发 安全
【Linux技术专题】「必备基础知识」带你仔细梳理一下平时排查问题查询日志的基本操作和指令
【Linux技术专题】「必备基础知识」带你仔细梳理一下平时排查问题查询日志的基本操作和指令
21 0

相关产品

  • 日志服务