海量、低成本历史日志分析实践

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 日志作为一种特殊的数据,对处理历史数据、诊断问题以及了解系统活动等有着非常重要的作用。对数据分析人员、开发人员或者运维人员而言,日志都是其工作过程中必不可缺的数据来源。 通常情况下,为节约成本,我们会将日志设定一定的保存时间,只分析该时间段内的日志,此类日志称之为“热”日志。

背景信息

日志作为一种特殊的数据,对处理历史数据、诊断问题以及了解系统活动等有着非常重要的作用。对数据分析人员、开发人员或者运维人员而言,日志都是其工作过程中必不可缺的数据来源。

通常情况下,为节约成本,我们会将日志设定一定的保存时间,只分析该时间段内的日志,此类日志称之为“热”日志。这种做法,短期内可以满足使用需求,但从长期来看,大量的历史日志被搁置,无法发挥其价值。

对于许多企业而言,对日志分析的需求特征通常为低时效和低频率。并且在一个企业中,为偶发性的日志分析去构建一套完整的日志分析系统,无论在经济成本还是运维成本上都是不划算的。如何在降低存储成本的同时满足大批量日志的分析需求,是摆在企业面前的一道难题。

实施方案

阿里云从用户角度出发,研发了一整套小而精的历史日志数据分析方案。利用阿里云日志服务 LOG(Log Service,简称LOG/原SLS)来投递日志,阿里云对象存储服务(Object Storage Service,简称OSS)来存储日志,Data Lake Analytics(DLA)来分析日志。该方案有以下三个优势:

  • LOG是针对实时数据一站式服务,在阿里集团经历大量大数据场景锤炼而成。提供日志类数据采集、智能查询分析、消费与投递等功能,全面提升海量日志处理/分析能力。LOG强大的日志投递能力,能够从源头对接各种类型的日志格式,并且稳定地将日志投递到指定的位置。

  • OSS低廉的存储成本,能够让您的日志文件存储任意长的时间。

  • DLA强大的分析能力,Serverless的架构,按扫描量收费。DLA可以对投递到OSS上的日志按年、按月、按日进行多维度的分区,提高日志的命中率,降低扫描量,从而以极低的成本、极高的性能来完成大数据量历史日志分析。

架构图

例如,服务部署在云服务器ECS(Elastic Compute Service,简称ECS)集群上,该集群的每台机器上都有一个记录访问情况的日志access.log。希望能够对access.log进行信息抽取,并将过滤后的信息存储至OSS上。本文档将以此为例,详细为您介绍实施步骤。

前提条件

在开始实施步骤之前,需要先完成以下准备工作。

实施步骤

步骤一:通过Logtail采集ECS日志。

详细操作请参见通过Logtail采集ECS日志

根据本示例中的日志文件特点,Logtail配置如下所示。

配置

模式选择完整正则模式,需要提供完整正则表达式。

配置

步骤二:投递日志到OSS

详细操作请参见投递日志到OSS,并且日志服务投递OSS使用Parquet存储的相关配置

OSS投递功能页面,配置各项参数:

配置配置

参数说明:

  • OSS BucketOSS Prefix设置日志投递到OSS的哪个目录。

  • 修改分区格式,将分区列的名字填入到目录中,格式为分区列名=分区列值

    如图所示,修改分区格式默认值,即一级分区列的列名为year,列值为%Y; 二级分区列的列名为month,列值为%m;三级分区列的列名为day,列值为%d。

  • 存储格式设置为parquet

  • 压缩方式设置为snappy,使用snappy算法对数据做压缩,可以减少OSS Bucket存储空间使用量。

日志数据投递到OSS中以后,就可以通过DLA读取并分析OSS中的日志。

步骤三:在DLA中创建OSS连接

登录DLA控制台登录DMS,在DLA中创建一个到OSS的连接。语法如下:


  
  
  1. CREATE SCHEMA oss_log_schema with DBPROPERTIES(
  2. catalog='oss',
  3. location = 'oss://myappbucket/sls_parquet/'
  4. );

location:日志文件所在的OSS Bucket的目录,需以/结尾表示目录。myappbucket是OSS Bucket名字。

步骤四:在DLA中创建指向OSS日志文件的外表(分区表)


  
  
  1. CREATE EXTERNAL TABLE sls_parquet (
  2. content STRING,
  3. client STRING,
  4. process_id STRING,
  5. start_time STRING,
  6. total_time STRING,
  7. status STRING,
  8. original_sql STRING,
  9. rewritten_sql STRING
  10. ) PARTITIONED BY (year STRING, month STRING, day STRING)
  11. STORED AS PARQUET
  12. LOCATION 'oss://myappbucket/sls_parquet/';

注意:

步骤五:使用MSCK命令更新分区信息

外表创建成功后,执行MSCK REPAIR TABLE将分区信息同步到DLA中。MSCK命令只能识别符合DLA分区列命名规则的目录,即分区列的目录名为分区列名=分区列值


  
  
  1. MSCK REPAIR TABLE sls_parquet;

步骤六:查询分区表数据

分区信息同步完成后,使用SELECT语句对日志进行查询分析。例如,得到某一天查询最慢的5条语句。


  
  
  1. SELECT original_sql, total_time
  2. FROM sls_parquet
  3. WHERE client!=''
  4. ORDER BY total_time DESC
  5. LIMIT 5;

后续操作

上述示例中,日志数据投递OSS的存储格式为Parquet格式,除了Parquet格式,LOG还可以将投递文件的格式设置为JSON和CSV。详细的配置,请参见JSON格式CSV格式

JSON格式

  • 当投递文件的格式设置为JSON且无压缩时,建表语句为:

    
        
        
    1. CREATE EXTERNAL TABLE sls_json (
    2. content STRING,
    3. client STRING,
    4. process_id STRING,
    5. start_time STRING,
    6. total_time STRING,
    7. status STRING,
    8. original_sql STRING,
    9. rewritten_sql STRING
    10. ) PARTITIONED BY (year STRING, month STRING, day STRING)
    11. STORED AS JSON
    12. LOCATION 'oss://myappbucket/sls_json/';
  • 当投递文件的格式设置为JSON且使用标准Snappy压缩时,建表语句为:

    
        
        
    1. CREATE EXTERNAL TABLE sls_json_snappy (
    2. content STRING,
    3. client STRING,
    4. process_id STRING,
    5. start_time STRING,
    6. total_time STRING,
    7. status STRING,
    8. original_sql STRING,
    9. rewritten_sql STRING
    10. ) PARTITIONED BY (year STRING, month STRING, day STRING)
    11. STORED AS JSON
    12. LOCATION 'oss://myappbucket/sls_json_snappy/'
    13. TBLPROPERTIES(
    14. 'text.compression'='snappy',
    15. 'io.compression.snappy.native'='true'
    16. );

CSV格式

  • 当投递文件的格式设置为CSV,不包含header,使用标准Snappy压缩时,建表语句为:

    
        
        
    1. CREATE EXTERNAL TABLE sls_csv_snappy (
    2. content STRING,
    3. client STRING,
    4. process_id STRING,
    5. start_time STRING,
    6. total_time STRING,
    7. status STRING,
    8. original_sql STRING,
    9. rewritten_sql STRING
    10. ) PARTITIONED BY (year STRING, month STRING, day STRING)
    11. ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    12. WITH SERDEPROPERTIES(
    13. 'separatorChar'=',',
    14. 'quoteChar'='"',
    15. 'escapeChar'='\\'
    16. )
    17. STORED AS TEXTFILE
    18. LOCATION 'oss://myappbucket/sls_csv_snappy/'
    19. TBLPROPERTIES(
    20. 'text.compression'='snappy',
    21. 'io.compression.snappy.native'='true',
    22. 'skip.header.line.count'='0'
    23. );

    csv

  • 当投递文件的格式设置为CSV无压缩,且包含header时,建表语句为:

    
        
        
    1. CREATE EXTERNAL TABLE sls_csv (
    2. content STRING,
    3. client STRING,
    4. process_id STRING,
    5. start_time STRING,
    6. total_time STRING,
    7. status STRING,
    8. original_sql STRING,
    9. rewritten_sql STRING
    10. ) PARTITIONED BY (year STRING, month STRING, day STRING)
    11. ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    12. WITH SERDEPROPERTIES(
    13. 'separatorChar'=',',
    14. 'quoteChar'='"',
    15. 'escapeChar'='\\'
    16. )
    17. STORED AS TEXTFILE
    18. LOCATION 'oss://myappbucket/sls_csv/'
    19. TBLPROPERTIES(
    20. 'skip.header.line.count'='1'
    21. );
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
46 1
|
3月前
|
存储 监控 数据库
Django 后端架构开发:高效日志规范与实践
Django 后端架构开发:高效日志规范与实践
73 1
|
1月前
|
Rust 前端开发 JavaScript
Tauri 开发实践 — Tauri 日志记录功能开发
本文介绍了如何为 Tauri 应用配置日志记录。Tauri 是一个利用 Web 技术构建桌面应用的框架。文章详细说明了如何在 Rust 和 JavaScript 代码中设置和集成日志记录,并控制日志输出。通过添加 `log` crate 和 Tauri 日志插件,可以轻松实现多平台日志记录,包括控制台输出、Webview 控制台和日志文件。文章还展示了如何调整日志级别以优化输出内容。配置完成后,日志记录功能将显著提升开发体验和程序稳定性。
76 1
Tauri 开发实践 — Tauri 日志记录功能开发
|
3月前
|
存储 监控 Serverless
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
阿里泛日志设计与实践问题之Grafana Loki在日志查询方案中存在哪些设计限制,如何解决
|
3月前
|
存储 搜索推荐 大数据
阿里泛日志设计与实践问题之schema-on-read技术的发展对日志搜索的影响是啥,如何解决
阿里泛日志设计与实践问题之schema-on-read技术的发展对日志搜索的影响是啥,如何解决
|
2月前
|
设计模式 SQL 安全
PHP中的设计模式:单例模式的深入探索与实践在PHP的编程实践中,设计模式是解决常见软件设计问题的最佳实践。单例模式作为设计模式中的一种,确保一个类只有一个实例,并提供全局访问点,广泛应用于配置管理、日志记录和测试框架等场景。本文将深入探讨单例模式的原理、实现方式及其在PHP中的应用,帮助开发者更好地理解和运用这一设计模式。
在PHP开发中,单例模式通过确保类仅有一个实例并提供一个全局访问点,有效管理和访问共享资源。本文详细介绍了单例模式的概念、PHP实现方式及应用场景,并通过具体代码示例展示如何在PHP中实现单例模式以及如何在实际项目中正确使用它来优化代码结构和性能。
47 2
|
3月前
|
弹性计算 缓存 监控
基于“日志审计应用”的 DNS 日志洞察实践
DNS 解析日志是一种记录 DNS 请求和响应的基础信息,监控 DNS 服务可以帮助用户识别网络活动并保持系统安全。日志审计服务支持采集 DNS 内网解析日志、公网权威解析日志、GTM 日志。理解 DNS 日志的字段含义,洞察 DNS 日志背后所代表的网络信息,既可以帮助发现和诊断 DNS 解析相关的问题,还可以检测和识别潜在的安全威胁。
8187 17
|
3月前
|
API C# 开发框架
WPF与Web服务集成大揭秘:手把手教你调用RESTful API,客户端与服务器端优劣对比全解析!
【8月更文挑战第31天】在现代软件开发中,WPF 和 Web 服务各具特色。WPF 以其出色的界面展示能力受到欢迎,而 Web 服务则凭借跨平台和易维护性在互联网应用中占有一席之地。本文探讨了 WPF 如何通过 HttpClient 类调用 RESTful API,并展示了基于 ASP.NET Core 的 Web 服务如何实现同样的功能。通过对比分析,揭示了两者各自的优缺点:WPF 客户端直接处理数据,减轻服务器负担,但需处理网络异常;Web 服务则能利用服务器端功能如缓存和权限验证,但可能增加服务器负载。希望本文能帮助开发者根据具体需求选择合适的技术方案。
167 0
|
3月前
|
存储 关系型数据库 MySQL
深入MySQL:事务日志redo log详解与实践
【8月更文挑战第24天】在MySQL的InnoDB存储引擎中,为确保事务的持久性和数据一致性,采用了redo log(重做日志)机制。redo log记录了所有数据修改,在系统崩溃后可通过它恢复未完成的事务。它由内存中的redo log buffer和磁盘上的redo log file组成。事务修改先写入buffer,再异步刷新至磁盘,最后提交事务。若系统崩溃,InnoDB通过redo log重放已提交事务并利用undo log回滚未提交事务,确保数据完整。理解redo log工作流程有助于优化数据库性能和确保数据安全。
569 0
|
3月前
|
存储 Kubernetes Java
阿里泛日志设计与实践问题之在写多查少的降本场景下,通过SLS Scan方案降低成本,如何实现
阿里泛日志设计与实践问题之在写多查少的降本场景下,通过SLS Scan方案降低成本,如何实现
下一篇
无影云桌面