阿里云日志服务SLS 数据加工之多源分发详解

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里云日志服务(SLS)**的[数据加工](https://help.aliyun.com/document_detail/125384.html?spm=a2c4g.11186623.6.883.39dd5cb5EEa920)功能是一个可托管、高可用、可扩展的数据加工服务,广泛适用于数据的规整、富化、分发、汇总、重建索引等场景。使用自建的DSL编排语法,让用户可以通过短短几行代码实现数据清洗和再投递的功能。这篇文章我们主要来介绍下数据加工下的投递功能。

前言:

阿里云日志服务(SLS)数据加工功能是一个可托管、高可用、可扩展的数据加工服务,广泛适用于数据的规整、富化、分发、汇总、重建索引等场景。使用自建的DSL编排语法,让用户可以通过短短几行代码实现数据清洗和再投递的功能。这篇文章我们主要来介绍下数据加工下的投递功能。

undefined

本文要点:

1.e_output/e_coutput语法详解。
2.不使用e_output/e_couput函数的最简单投递配置。
3.使用e_output/e_couput 函数进行多源分发实践。
4.如何将一个logstore中不同数据通过多源分发投递到不同logstore。

数据加工e_output 语法详解

首先我们可以根据官方文档来了解其参数作用 e_output。参数图示如下:
undefined

1.参数区别。

当我们使用e_output 函数的时候,需要在里面填入name, project, logstore 等参数,其中name参数对应的是右边保存数据加工时候需要填入的存储目标的名称。那么这时候有的小伙伴可能会有点蒙,既然在存储目标里面已经填入了project, logstore 的名称,为什么在e_output里面还有这两个参数,如果在e_output 里面填入的project,logstore参数和存储目标里面填入的 project,logstore 参数不一致,那么我的数据又会被发送到哪里? 那么我们从下面这个表格里去详细解释他们之间的区别:

用法 语法示例 说明
只填写name参数 e_output(name="target") 会发送数据到目标"target"中配置的logstore 中去。
同时填写name,project,logstore 参数 e_output(name="target",project="test_project",logstore="test_logstore") 数据会发送到"test_logstore"当中去,使用的ak 为目标"target"下配置的AK 信息。
不填写name 参数,只填project/logstore参数 e_output(project="test_project",logstore="test_logstre") 数据会发送到"test_logstore"当中去。使用的 AK 信息为当前登录账号的AK 信息。

2.如何配置默认目标。

要注意的是当我们使用e_output这个函数时候,需要在目标中配置一个默认目标,经过加工DSL层层处理,能够达到最后(没有在中间被丢弃)的行,默认的行为会写到第一个存储目标(不论目标的名称是什么)。
undefined

3.如何设置高级参数。

有些时候我们需要从加工的数据中动态的去获取分发目标,例如e_output(logstore=v("name")), 这个语法会动态的去取值进来,那么假如此时目标logstore 不存在,我们的数据加工任务就会在此停住,进行不断的重试,直到目标logstore 被创建出来为止。那么如何才能不让我们的加工任务继续进行加工呢? 这时可以通过配置高级参数来跳过不存在的目标Logstore: config.sls_output.failure_strategy: {“drop_when_not_exists”:”true”}
Note: 需要注意的是,当我们配置这个参数的时候,如果出现目标logstore 不存在的情况,这时候会将数据丢弃,所以请大家谨慎使用该参数。
undefined

4.e_output和e_coutput的区别

当数据加工语法执行到e_output语句的时候不会在执行后续的语法,而e_coutput 是可以继续执行后续的语句的。

案例实践

1.不使用e_output语法的 最基本简单分发

最基本的数据分发,我们不需要使用e_output 语法去进行动态的分发,只需要配置最基础的分发目标,加工后的数据就会被投递到目标logstore 当中去。我们来做一个最简单的分发,将日志设置一个新字段后投递到另外两个目标logstore。

日志样例:
__time__ : 1591754815
__source__: 127.0.0.1
product: aliyun
product_2: ecs

加工语法:
e_set("new","new_name")

配置数据加工投递目标
undefined

小结: 以上我们就配置成功了最简单的数据加工任务,这里我们没有使用e_output/e_coutput语法一样可以达到多目标投递效果。

2. 案例实践: 通过解析user-agent请求头并使用e_output函数进行多源分发

现有某公司对一款游戏进行了广告投放,现在关于该游戏的所有API请求信息都存储在一个logstore当中,公司希望通过解析useragent请求头,将来自不同设备的请求进行归档分发存储(ios/android/windows), 并且对method方法进行数据分析。

需求分析
首先针对上述需求,需要使用ua_parse_os 函数首先对数据中的useragent 进行解析拿到该设备的os信息,后根据所得信息调用 e_output 函数进行动态分发。

原始数据样例
以下logstore 数据中,我们将会对 user_agent 字段的值进行解析,并对解析后的信息进行清洗和转发。

__source__:127.0.0.1
__tag__:__receive_time__: 1589541467
ip:31.110.75.122
request_method: GET
user_agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:50.0) Gecko/20100101 Firefox/50.0

数据加工语法与逻辑

# 使用ua_parse_os函数,解析user_agent字段,使用dct_get函数,拿到请求头中的os信息,并把值赋予新字段os。
e_set("os", dct_get(ua_parse_os(v("user_agent")),"family"))
# 根据os 字段的值,结合e_if 语法进行分发,根据解析出来不同值分发到不同logstore。
e_if(e_search("os==Windows"),e_output(name="target1"))
e_if(e_search("os=iOS"),e_output(name="target2"))
e_if(e_search("os==Android"),e_output(name="target3"))

保存数据加工任务:
undefined

通过上图我们可以看到数据经过清洗后分别发送到了配置的默认目标targe0 和其他三个用来分别存储windows请求,ios请求,Android请求的三个(target1,target2,target3)三个目标当中。我们先看发送到目标target2,用来存储IOS数据的logstore 中用户get/post两种请求占比:
这里我们在控制台输入sql 语句:
* | SELECT Request_method, COUNT(*) as number GROUP BY Request_method
生成如下的仪表盘:
undefined

可以看出用户在IOS 端发送GET/POST请求的比例基本是7:3。

同样的分析语句,我们来看目标target3,用来存储Android数据的logstore中的GET/POST请求占比:
undefined
通过仪表盘可以看出,通过Android客户端进行的GET/POST请求基本上是6:4 ,证明在使用Android系统的用户中,该广告转化率较高。

3.使用e_split和e_output将logstore中不同字段分发到不同logstore中

背景:
​ 在使用数据加工多源分发的任务中,有的用户希望通过多源分发函数,将不同的字段输出到不同的目标logstore 当中去。这里我们用e_split函数结合 e_output函数来实现该需求。

需求图示:
undefined

日志样例:

__time__ : 1591754815
__source__: 127.0.0.1
product: aliyun
product_2: ecs

DSL编排语法:

e_set("tag", "t1, t2")
e_split("tag")
e_if(e_search("tag==t1"),e_compose(e_keep_fields("__time__", "__source__","product", regex=False),e_output(name="t1")))
e_keep_fields("__time__","__source__","product_2", regex=False)
e_output(name="t2")

语法解析:
1.我们首先设置了一个新字段 tag , 并且给予其 "t1,t2"的值,
2.接下来我们使用e_split()函数将数据按照 t1,t2 分裂成两份数据。
3.然后通过e_if 和 e_search 组合语法,针对t1, t2 两份数据做不同的加工和分发。

加工结果:

undefined

写在最后

​ 关于多源分发函数的使用,只是数据加工诸多函数中其中一个,目前数据加工提供的加工函数类型有100+,能够覆盖绝大多数数据加工的场景,其他的函数的使用还需要用户移步 阿里云日志服务数据加工函总览。数据加工目前经历了大量场景的锤炼,我们对用户提出的需求也在不断改进中,期望将来持续为用户提供更贴心的服务,更畅快的使用感受。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
28天前
|
SQL 运维 监控
SLS 数据加工全面升级,集成 SPL 语法
在系统开发、运维过程中,日志是最重要的信息之一,其最大的优点是简单直接。SLS 数据加工功能旨在解决非结构化的日志数据处理,当前全面升级,集成 SPL 语言、更强的数据处理性能、更优的使用成本。
18015 134
|
17天前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
81 5
|
22天前
|
机器学习/深度学习 新零售 人工智能
袋鼠云:阿里云数加生态中的新星,A轮融资引领数据智能新篇章
总之,袋鼠云的A轮融资不仅是对其过去成绩的肯定更是对其未来发展的期许。我们有理由相信在未来的日子里袋鼠云将在大数据和云计算领域继续书写属于自己的辉煌篇章
|
21天前
|
监控 数据管理 关系型数据库
数据管理DMS使用问题之是否支持将操作日志导出至阿里云日志服务(SLS)
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
24天前
|
存储 分布式计算 监控
日志数据投递到MaxCompute最佳实践
日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
130 2
|
4天前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
1月前
|
存储 消息中间件 容灾
|
1月前
|
分布式计算 运维 DataWorks
DataWorks产品使用合集之如何查看数据服务API发布后的服务端日志
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
12天前
|
安全 API 数据库
OceanBase数据库clog日志,删前请三思!一不小心可能引发数据灾难,快来了解正确的日志管理之道!
【8月更文挑战第7天】ModelScope(魔搭)作为开放的模型即服务平台,提供丰富的预训练模型。访问令牌在此类平台中至关重要,用于验证用户身份并授权访问特定模型或服务。本文介绍访问令牌的概念、获取方法及使用示例,强调安全性与有效期内的使用,并简述刷新令牌机制。掌握这些知识可帮助用户安全高效地利用ModelScope的资源。
31 0

相关产品

  • 日志服务