云原生架构下日志服务数据预处理

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本篇实践将以某家国际教育机构为例,为大家详细介绍云原生架构下日志服务数据预处理以及对应的解决方案和最佳实践操作手册,方便用户快速对号入座,解决云原生架构下的常见日志难题。
直达最佳实践:【 https://bp.aliyun.com/detail/207
观看视频:【 https://yqh.aliyun.com/live/detail/23950
阿里云最佳实践目前已覆盖23类常用场景,有200多篇最佳实践,这其中涉及110款以上阿里云产品的最佳使用场景。目前,最佳实践已成功帮助大量客户实现自助上云。

分享人

  • 解决方案架构师-七凌
  • 日志服务产品经理-谷奈

本篇实践将从3个部分为大家介绍云原生架构下日志服务数据预处理,希望可以让大家对其有更深入的了解,并可以将其应用到项目中,达到降本提效的目的。本文主要内容分为以下三个方面:

  • 最佳实践方案讲解
  • 核心产品能力介绍
  • 基于场景的demo演示

一、最佳实践方案讲解

1. 云原生下的数据加工

云原生的定义各种各样,有来自CNCF社区的“微服务+容器+持续交付+DevOps”,也有来自不同云厂商的说法“生于云,长于云”。比如我们常常听到的云原生数据库、云原生大数据、云原生容器、云原生中间件、云原生安全等等概念,这都是在云上可以获取到的服务化云原生产品,是传统线下没有的服务,能够在线上获取极致的弹性。这里,我们提到的数据加工,它是阿里云提供的云原生日志服务SLS所具备的能力之一。我相信大家都非常熟悉日志服务的数据存储、数据查询能力,而对于它提供的数据加工和告警通知,可能不太了解。SLS内置的数据加工能力,能够将各类日志处理为结构化数据,具备全托管、实时、高吞吐的特点。它面向日志分析领域,提供非常丰富的算子、支持开箱即用的场景化UDF(比如Syslog、非标准json、accessLog解析等等)。同时与阿里云的大数据产品(OSS、MC、EMR、ADB等)以及开源生态(Flink、Spark)进行了深度集成,降低了数据分析的门槛。
image.png

2. 云原生数据加工的典型能力

下图所示为数据加工服务的几个典型能力,包括数据复制、过滤、转换,富化、补漏、分裂等。整体优势简单来说可以归纳为以下四点:

  • 开箱即用,免运维
  • 开放灵活,支持200+DSL
  • 稳定可靠
  • 能做到秒级延迟

image.png

3. 云原生数据加工的典型应用场景

以向全球提供分布式在线教育的某家国际教育机构为例,为大家介绍几个典型应用场景,供大家参考和借鉴。

  • 典型场景一:跨地域、跨账号的数据汇集
    假设该在线教育的主要用户集中在美国硅谷和中国上海两地,为了更好的为用户提供个性化服务,系统会通过多端(Android/IOS/Web)进行收集用户行为日志和设备元数据(端设备的信息、软件版本)。出于网络就近原则和稳定性考虑,美国硅谷的客户端日志都上传到美国硅谷region,中国上海的客户端日志都都上传到中国上海region,为了方面客服中心或者运维团队进行集中查询和管理,会将两地的数据通过数据加工汇聚到一起。正如下图上层所示,将跨账号跨区域的服务日志和操作日志通过数据加工汇聚到了一起。值得注意的是,跨地域数据汇集,默认会走公网,稳定性无法保证,所以推荐采用DCDN的方式进行全球加速。
    image.png
  • 典型场景二:数据统一的采集,按业务分发,进行数据的归类
    该客户的业务系统部署在阿里云容器服务ACK上,系统日志通过DaemonSet方式采集到Logstore。便于后续业务分析的目的,需要通过日志服务SLS将不同Service的日志分发到不同的Logstore,然后各个团队再进行进一步分析。比如,运维团队更关心5XX服务端报错;业务团队更在乎2XX正常的业务日志。正如下图下层所示:

    image.png

  • 典型场景三:数据内容富化(join维表)
    日常工作中,客服中心的工作人员尝尝需要通过检索账号ID的方式,快速获取该用户相关的移动端操作记录,但是移动端的数据和用户账号信息分别采集与存放的,无法直接进行关联。所以系统层面上,需要将多端日志与维表(例如用户信息Mysql表)进行字段join,为原日志信息添加更多维度信息供分析或者问题解答。

    image.png

  • 典型场景四:数据投递/归档、入湖分析以及监控告警
    运营部门希望对于用户行为数据进行进一步的离线分析,需要将数据归档到OSS便于后续使用,比如通过DLA进行进一步的数据挖掘。但是由于不同客户端日志格式不统一,需要使用日志服务进行数据规整后再做投递,便于后续分析。比如,将移动端上报的json格式进行展开,做格式化的规整,然后将规整后的数据投递到OSS后,再使用DLA进行分析。并且在这个过程中,我们可以对加工任务的延迟情况进行监控,当加工任务延迟时间超过所设置的阈值后,触发告警,执行相关行动策略。比如根据延迟时间的长短,设置不同的告警严重程度,并设置对应的告警形式: 严重为短信告警,中等为邮箱告警。通知到相应的运维人员,并且通过设置降噪策略,可以对类似告警进行归并,避免告警风暴的影响。其实下面这幅架构图也是这篇最佳实践的架构示意图,里面包括了方案涉及到的核心组件,后续将通过云速搭CADT进行一键部署,完成基础资源的创建。
    image.png

4. 使用云原生数据加工方案的优势

通过这篇最佳实践,我们可以知道如何进行数据规整、如何进行数据富化、数据分发/汇聚、如何做监控告警的配置。

image.png

二、核心产品能力介绍

什么是SLS?

SLS这个产品用一句话描述即SLS是云原生观测分析平台,为LOG/METRIC/TRACE等数据提供大规模、低成本、实时平台化服务。能够一站式提供数据采集、加工、分析、告警可视化与投递功能,能够全面提升研发、运维、运营和安全等场景的数字化分析能力。通俗一点说的话,相关日志数据包括log日志、trace日志、metric日志都可以通过SLS采集之后,在SLS里面经过加工分析等处理,最终应用到客户的业务场景里,主要场景包括:业务监控、异常诊断、网络分析、应用监控、增长黑客等。
image.png
SLS是从阿里云飞天监控系统中孵化的产品,是一款阿里自研,在阿里内外部得到广泛使用的《日志+监控数据平台》,同时经历了集团多年双十一和外部客户新春红包的考验,是国内公有云TOP1的日志分析产品。
image.png

SLS的应用场景

SLS作为一款日志产品,有着开放的产品理念和丰富的生态交叉。对目前用户数据比较大的云产品业务日志,以及审计日志,均可接入到SLS。同时SLS与大数据产品的投递和消费的功能,有很强的的解决方案组合能力。那么接下来我们就细看下SLS主要的应用场景,作为日志平台、业务监控、数据管道是目前使用最多的三个场景。
image.png

  • 日志平台

    日志平台比较好理解,只要是有一定规模的用户,就肯定会有业务运维和系统运维的需求,也就衍生了日志平台的需求。在SLS产品化之前,大部分用户都是使用开源的服务进行组合,比较主流的比如ELK的使用,而日志服务相比于这些自建的平台,在免运维、低成本、功能丰富等方面的优势是自建系统所无法比拟的。

  • 业务监控
    业务监控和智能运维其实也是运维领域通用场景的需求,SLS拥有秒级处理十亿级数据的分析能力,同时可以满足各种异构数据提取、聚合、可视化需求。同时另外结合我们的告警以及AI异常检测能力,可以帮助客户快速搭建起来一套完善的监控告警系统,最后结合日志服务提供的异常巡检、时序预测、根因分析等能力,能够帮助用户提高问题发现以及分析定位效率。
  • 数据管道
    由于SLS具有极强的统一数据采集的能力,目前已经支持40+种数据源的接入,同时数据加工能力通过灵活的ETL能够对数据进行清洗富化,最终通过投递消费的功能,与主流流式及离线平台大数据分析平台对接。因此作为数据管道在大数据等解决方案中使用也是主要的场景之一。

SLS的主要功能

功能包括数据采集、数据加工、查询分析、业务监控、日志审计、投递与消费。

image.png

  • 日志采集

    日志采集是SLS的一个核心功能,是帮助客户进行日志存储分析等的前提,在日志采集这一方面,SLS基本上是往极致的思路上在做。无论是LOG/TRACE/METRIC的日志,用户的服务器与应用日志,移动端的数据日志,IoT设备的日志,阿里云的各个云产品日志,还是其他场景,只要是满足标准协议的传输的日志,都可以通过SLS的采集平台进行统一采集。

    image.png

  • 数据加工

    完成了数据采集的工作之后,多样化的数据在投入使用之前,往往需要进行格式规整的工作,这时候就需要使用到数据加工的功能。SLS提供的数据加工是一款开箱即用的功能,支持数据过滤、转化、富化、分裂等处理。为了实现这样的能力,数据加工提供了200+的内置函数,400+的Grok,丰富的文本处理,搜索算子,可以通过简单的代码自由编排组合操作,实现所需要的的数据加工能力。

    image.png
    同时数据加工具备的秒级处理性能,大吞吐性能和水平拓展能力可以保障客户任务的可靠执行。

  • 查询分析

    通过数据加工,客户可以将原始的日志加工成结构化的数据,接下去就可以做查询和分析。SLS的查询分析提供了关键词、标准的SQL92\ALOPS函数等多种多样的查询方式,支持面向文本+结构化数据实时查询分析,异常巡检与智能分析,同时SLS拥有极致的查询性能,十亿数据能够在秒级进行返回。
    image.png

  • 业务监控

    通过这些分析后得到的查询的数据,就可以使用SLS的可视化能力,形成报表方便二次查询。一次SQL长期使用,所见即所得。同时SLS支持下钻分析和上卷分析,客户可以根据实际的业务需求设置对应的报表组合。另外SLS支持灵活的告警策略,支持多数据源的联合告警监控,也支持通过归并、抑制、静默等智能设置有效降低告警风暴,以便于能够将真正有效有价值的数据通知到用户,方便用户随时随地掌握业务动向。
    image.png

  • 日志审计

    日志审计主要应对客户的安全需求,能够帮助客户快速接入审计数据,以符合等保/网安法/GDPR协议,同时与第三方SOC完整对接,可以对数据进行二次使用。目前日志审计已覆盖所有日志相关产品日志自动化采集,可以实现跨多主账号、自动实时发现新资源并实时采集。我们在日志审计中内置了近百个CIS、最佳实践等场景监控规则,可以一键开启,及时发现不合规的行为。

    image.png

  • 投递功能
    投递功能是在当客户有数据归档或者复杂数据分析需求时,可以从日志服务投递(和消费对应的日志)到第三方服务。目前已经对接了主流流计算引擎和数据仓库存储。消费功能是指用户的ECS\容器、移动端、开源软件、JS等数据,通过采集接入到SLS后,可以通过SDK/API来自定义消费组,从SLS实时消费数据。

    image.png

三、基于场景的demo演示

本最佳实践采用云速搭CADT对需要使用的资源进行部署,它是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板,同时也支持自助拖拽方式定义应用云上架构,支持大量阿里云服务的配置和管理,可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。下面简单演示下架构部署环境的搭建过程。

  1. 登录云速搭CADT控制台。
  2. 单击新建 > 官方模板库新建

    image.png

  3. 在搜索框中搜索“云原生架构下日志服务数据预处理”,找到目标模板,单击基于方案新建

    image.png
    系统基于模板生成应用架构图:

    image.png

  4. 双击OSS,需要重命名,保证全局唯一,其他资源配置根据实际情况修改。
    image.png
  5. 完成配置后,单击右上角的保存,设置应用名称,并单击确认

    image.png

  6. 接着单击部署应用

    image.png

  7. 按界面提示,依次完成资源验证、订单确认和下单创建等过程。等待资源部署成功后,可以单击资源名称列下的各个资源查看。
    image.png

关于完整的搭建演示过程,大家可以通过下面这个链接或访问二维码来访问本篇最佳实践文档内容,里面包含最佳实践场景和完整的搭建过程。

直达最佳实践 》》https://bp.aliyun.com/detail/207

207.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
1月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
1月前
|
运维 Cloud Native 持续交付
云原生技术深度探索:重塑现代IT架构的无形之力####
本文深入剖析了云原生技术的核心概念、关键技术组件及其对现代IT架构变革的深远影响。通过实例解析,揭示云原生如何促进企业实现敏捷开发、弹性伸缩与成本优化,为数字化转型提供强有力的技术支撑。不同于传统综述,本摘要直接聚焦于云原生技术的价值本质,旨在为读者构建一个宏观且具体的技术蓝图。 ####
|
1月前
|
弹性计算 运维 Cloud Native
云原生架构的崛起与未来展望
在数字化转型的浪潮中,云原生架构凭借其高效、灵活和可扩展的特性,正逐渐成为企业IT战略的核心。本文旨在探讨云原生架构的定义、关键特性、实施优势以及面临的挑战,同时展望未来的发展趋势。通过深入分析,我们期望为读者提供一个关于云原生架构全面而深入的视角,助力企业在云计算时代做出更明智的决策。
41 3
|
1月前
|
Cloud Native API 持续交付
云原生时代的微服务架构设计
随着云计算的蓬勃发展,云原生概念逐渐成为IT行业的热点。本文将通过深入浅出的方式,介绍在云原生环境下,如何设计一个高效、可扩展的微服务架构。文章不仅涉及理论概念,还将结合实际代码示例,帮助读者理解微服务架构的核心要素和设计原则,以及如何在云平台上实现这些设计。
|
1月前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
47 0
|
1月前
|
Cloud Native 持续交付 云计算
云原生架构的崛起:企业数字化转型的加速器
在当今快速发展的技术环境中,企业正面临着前所未有的变革压力。本文深入探讨了云原生架构如何成为推动企业数字化转型的关键力量。通过分析其核心概念、优势以及实施策略,本文旨在为读者提供对云原生技术的全面理解,展示其在现代企业中不可或缺的作用。
29 0
|
2月前
|
Cloud Native 持续交付 云计算
云计算的转型之路:探索云原生架构的崛起与实践####
随着企业数字化转型加速,云原生架构以其高效性、灵活性和可扩展性成为现代IT基础设施的核心。本文深入探讨了云原生技术的关键要素,包括容器化、微服务、持续集成/持续部署(CI/CD)及无服务器架构等,并通过案例分析展示了这些技术如何助力企业实现敏捷开发、快速迭代和资源优化。通过剖析典型企业的转型经历,揭示云原生架构在应对市场变化、提升业务竞争力方面的巨大潜力。 ####
44 0
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
57 3
|
2月前
|
Cloud Native 持续交付 云计算
云原生架构的演进与挑战
随着云计算技术的不断发展,云原生架构已成为企业数字化转型的重要支撑。本文深入探讨了云原生架构的概念、发展历程、核心技术以及面临的挑战,旨在为读者提供一个全面了解云原生架构的视角。通过分析Kubernetes、Docker等关键技术的应用,以及微服务、持续集成/持续部署(CI/CD)等实践案例,本文揭示了云原生架构在提高应用开发效率、降低运维成本、增强系统可扩展性等方面的显著优势。同时,也指出了云原生架构在安全性、复杂性管理等方面所面临的挑战,并提出了相应的解决策略。