又快又省!探索日志存储+查询极限

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。

EuroSys(European Conference on Computer Systems)是体系结构的顶级会议(CCF-A,录取率16%上下)。今年阿里云SLS团队与清华大学论文《LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns》被EuroSys 23收录。


探索压缩极限之路


在我们生活和工作中,服务器、程序、IoT设备等无时无刻在产生大量的日志。日志数据以增量大、规模大、查询慢著称,在一个中大型的数据公司,每天产生日志量可以达到PB级。开发、运维、安全和运营工作都离不开日志数据,如能够设计出一种高压缩比的算法,能够节省每年EB级的存储成本。


2021年,阿里云SLS 团队与清华大学在存储顶会FAST21上发表了《On the Feasibility of Parser-based Log Compression in Large-Scale Cloud Systems》论文,探索了面向日志数据的压缩问题,在LogReducer的方案中:

  • 压缩率:和通用的gzip、LZMA、专用的LogArchive、Logzip等方法相比,LogReducer是其他四种方法中最好方法的1.11-2.87倍,是常见的gzip方法的1.54-6.78倍。
  • 速度:LogReducer的压缩速度和专注于压缩率的通用压缩方法速度基本持平(0.56-3.16倍)。


在实验中,该方法将全部1.76TB的数据压缩到34.25GB的空间内,它所占的空间是gzip压缩效果所占空间的1/4.5,可以大大节省成本。


在克服了压缩问题后,我们开始考虑,有没有可能可能找到一种方法?既能够查询得快,又存得省?


是否能又快又省


2021-2022年,SLS团队与清华大学再次合作,根据数据和查询特点,提出了一种新的编码方案。在21种TB量级的阿里云真实日生产日志上,原型系统LogGrep(LG)实现了平均30倍的压缩率,并实现对千万条高密压缩的阿里云日志数据检索的秒级响应:


  • 压缩率:同gzip相比,压缩率提升了1.84 – 4.54倍(平均2.61倍);和CLP(多伦多大学研发、已在Twitter系统中部署日志存储系统CLP(OSDI 22)相比)相比,压缩率提升了1.41 – 3.63倍(平均2.17倍);同ElasticSearch相比,压缩率提升了9.63 – 83.23倍(平均23.58倍)。
  • 查询速度:同gzip+grep(ggrep)方法相比延迟降低了6.47 - 80.34倍(平均降低24.82倍);同直接进行grep检索的方法相比,延迟降低了1.89 – 30.40倍(平均降低了13.17倍);同CLP相比;延迟降低了7.54 – 68.33倍(平均降低了27.44倍);和Elasticsearch(ES)相比,在7种日志上延迟更低(7/20)。

(a) Query latency on AliCloud logs (log scale).png

(b) Compression ratio on AliCloud logs.png

结合压缩率和查询速度综合考虑:以一个典型写多读少的日志场景下(存储180天,在生命周期中查询100次),无论是阿里云的样本日志、还是公开的日志测试集,LG综合成本是其他方案的1/3,朝着又快又省迈出了坚定一步。

AliCloud logs&Public logs.png

后续


阿里云日志服务(SLS)团队致力于为可观测数据(Log/Metric/Trace)提供大规模、低成本的存储分析能力,全面提升研发、运维、运营和安全等场景数字化能力。


我们在不断在可观测数据领域,探索“好、多、快、省”的存储与分析方案,后续会在EuroSys23和大家分享论文的相关细节,敬请期待。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
5月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
本文介绍了阿里集团A+流量分析平台的日志查询优化方案,针对万亿级日志数据的写入与查询挑战,提出基于Flink、Paimon和StarRocks的技术架构。通过Paimon存储日志数据,结合StarRocks高效计算能力,实现秒级查询性能。具体包括分桶表设计、数据缓存优化及文件大小控制等措施,解决高并发、大数据量下的查询效率问题。最终,日志查询耗时从分钟级降至秒级,显著提升业务响应速度,并为未来更低存储成本、更高性能及更多业务场景覆盖奠定基础。
|
6月前
|
存储 运维 监控
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
|
5月前
|
存储 数据可视化 开发工具
【Application Insights】Application Insights存储的Function App的日志存在"Operation Link" 为空的情况
在将 Azure Functions 升级到 .NET 8 和 Isolated Worker 模式后,Application Insights 的请求日志中 `operation_Link` 字段为空,导致分布式追踪无法正常关联。解决方法包括:确保引用正确的 SDK 包(如 `Microsoft.Azure.Functions.Worker.ApplicationInsights`),正确配置 Application Insights 服务,移除默认日志过滤规则,并使用最新依赖包以支持分布式追踪。通过这些步骤,可恢复端到端事务视图的可视化效果。
101 11
|
5月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
537 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
12月前
|
Web App开发 存储 监控
iLogtail 开源两周年:UC 工程师分享日志查询服务建设实践案例
本文为 iLogtail 开源两周年的实践案例分享,讨论了 iLogtail 作为日志采集工具的优势,包括它在性能上超越 Filebeat 的能力,并通过一系列优化解决了在生产环境中替换 Filebeat 和 Logstash 时遇到的挑战。
347 109
|
7月前
|
SQL 存储 自然语言处理
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
131 1
|
9月前
|
存储 人工智能 JSON
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
384 7
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
|
存储 监控 Serverless
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
175 0
|
SQL 存储 缓存
高基数 GroupBy 在 SLS SQL 中的查询加速
本文详细介绍了SLS中的高基数GroupBy查询加速技术。
285 110
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
733 14
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应

相关产品

  • 日志服务