SLS数据加工实现跨Logstore维表富化

2022-09-07 463

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： 跨Logstore维表富化指的是数据加工中通过资源函数（res_log_logstore_pull）从另一个Logstore中获取数据，并对获取到的数据进行富化，精准的过滤出预期数据，便于直观的得到预期信息。

阿里云日志服务介绍

日志服务（Log Service，简称SLS）是云原生观测与分析平台，为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能，全面提升您在研发、运维、运营、安全等场景的数字化能力。

数据加工服务是阿里云SLS推出的面向日志ETL处理的服务，主要解决数据加工过程中转换、过滤、分发、富化等场景。

什么是跨Logstore维表富化

跨Logstore维表富化指的是数据加工中通过资源函数（res_log_logstore_pull）从另一个Logstore中获取数据，并对获取到的数据进行富化，精准的过滤出预期数据，便于直观的得到预期信息。如某酒店将客人个人信息存储在ALogstore中，将客人入住信息存储在BLogstore中，现在酒店希望从BLogstore中获取部分字段数据，与ALogstore中的数据拼接。针对该需求，日志服务提供res_log_logstore_pull函数从ALogstore中获取数据，提供e_table_map函数或e_search_table_map函数实现数据富化，快速获取到客人信息。

下文将详细介绍如何通过资源函数（res_log_logstore_pull）从其他Logstore中获取数据，并进行数据富化。

函数简介

函数格式

res_log_logstore_pull(

endpoint,

ak_id,

ak_secret,

project,

logstore,

fields,

from_time="begin",

to_time=None,

fetch_include_data=None,

fetch_exclude_data=None,

primary_keys=None,

fetch_interval=2,

delete_data=None,

base_retry_back_off=1,

max_retry_back_off=60,

ttl=None,

role_arn=None,

)

参数说明

名称	类型	是否必填	说明
endpoint	String	是	访问域名。更多信息，请参见服务入口。默认为HTTPS格式，也支持HTTP格式。特殊情况下，需使用非80、非443端口。
ak_id	String	是	阿里云账号的AccessKey ID。为了数据安全，建议在高级参数配置中配置。关于如何配置高级参数，请参见创建数据加工作业。
ak_secret	String	是	阿里云账号的AccessKey Secret。为了数据安全，建议在高级参数配置中配置。关于如何配置高级参数，请参见创建数据加工作业。
project	String	是	待拉取数据的Project名称。
logstore	String	是	待拉取数据的Logstore名称。
fields	String List	是	字符串列表或者字符串别名列表。日志中不包含某个字段时，该字段的值为空。例如需要将["user_id", "province", "city", "name", "age"]的name改名为user_name时，可以配置为["user_id", "province", "city", ("name", "user_name"), ("nickname", "nick_name"), "age"]。
from_time	String	否	首次开始拉取日志的服务器时间，默认值为begin，表示会从第一条数据开始拉取。支持如下时间格式： Unix时间戳。时间字符串。特定字符串，例如begin、end。表达式：dt_类函数返回的时间。例如dt_totimestamp(dt_truncate(dt_today(tz="Asia/Shanghai"), day=op_neg(-1)))，表示昨天拉取日志的开始时间，如果当前时间是2019-5-5 10:10:10 8:00，则上述表达式表示时间2019-5-4 10:10:10 8:00。
to_time	String	否	首次结束读取日志的服务器时间。默认值为None，表示当前的最后一条日志。支持如下时间格式： Unix时间戳。时间字符串。特定字符串。例如begin、end。表达式：dt_类函数返回的时间。不配置或者配置为None表示持续拉取最新的日志。说明如果填入的是一个未来时间，只会将该Logstore所有数据拉取完毕，并不会开启持续拉取任务。
fetch_include_data	String	否	配置字段白名单，满足fetch_include_data时保留数据，否则丢弃。不配置或配置为None时，表示关闭字段白名单功能。配置为具体的字段和字段值时，表示保留该字段和字段值所在的日志。
fetch_exclude_data	String	否	配置字段黑名单，满足fetch_exclude_data时丢弃数据，否则保留。不配置或配置为None时，表示关闭字段黑名单功能。配置为具体的字段和字段值时，表示丢弃该字段和字段值所在的日志。说明如果您同时设置了fetch_include_data和fetch_exclude_data参数，则优先执行fetch_include_data参数，再执行fetch_exclude_data参数。
primary_keys	字符串列表	否	维护表格时的主键字段列表。如果fields参数中对主键字段进行修改，这里应使用修改后的字段名，将修改后的字段作为主键字段。说明 primary_keys参数只支持单个字符串，且必须存在于fields参数配置的字段中。待拉取数据的目标Logstore中只能有一个Shard。
fetch_interval	Int	否	开启持续拉取任务时，每次拉取请求的时间间隔，默认值为2，单位：秒。该值必须大于或者等于1。
delete_data	String	否	对满足条件且配置了primary_keys的数据，在表格中进行删除操作。更多信息，请参见查询字符串语法。
base_retry_back_off	Number	否	拉取数据失败后重新拉取的时间间隔，默认值为1，单位：秒。
max_retry_back_off	Int	否	拉取数据失败后，重试请求的最大时间间隔，默认值为60，单位：秒。建议使用默认值。
ttl	Int	否	开启持续拉取任务时，拉取日志产生时间开始ttl时间内的日志，单位为秒。默认值为None，表示拉取全部时间的日志。
role_arn	String	否	阿里云账号的角色。为了数据安全，建议在高级参数配置中配置。关于如何配置高级参数，请参见创建数据加工作业。

返回结果

返回多列表格。

场景应用

某酒店将客人个人信息存储在名为user_logstore的Logstore中，将客人入住信息存储在名为check-in_logstore的Logstore中，现在酒店希望从check-in_logstore中获取部分字段数据，与user_logstore中的数据拼接。此处通过res_log_logstore_pull函数从check-in_logstore中获取数据，使用e_table_map函数或e_search_table_map函数实现数据富化。

原始数据

用于存储个人信息的Logstore（user_logstore）

topic:xxx

city:xxx

cid:12345

name:maki

topic:xxx

city:xxx

cid:12346

name:vicky

topic:xxx

city:xxx

cid:12347

name:mary

用于存储入住信息的Logstore（check-in_logstore）

time:1567038284

status:check in

cid:12345

name:maki

room_number:1111

time:1567038284

status:check in

cid:12346

name:vicky

room_number:2222

time:1567038500

status:check in

cid:12347

name:mary

room_number:3333

time:1567038500

status:leave

cid:12345

name:maki

room_number:1111

场景一使用e_table_map筛选cid字段相同的客户信息

通过两个Logstore中相同的cid字段进行匹配，设置起始时间（"08-31 19:00:02 8:00"），只有cid字段的值完全相同，才能匹配成功。匹配成功后，返回Logstore（check-in_logstore）中的room_number字段和字段值，与Logstore（check-in_logstore）中的数据拼接，生成新的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"LT***6F",

"9D***R7",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "room_number"],

from_time="08-31 19:00:02 8:00",

"cid",

"room_number",

)

加工结果

topic:xxx

city:xxx

cid:12345

name:maki

room_number:1111

topic:xxx

city:xxx

cid:12346

name:vicky

room_number:2222

topic:xxx

city:xxx

cid:12347

name:mary

room_number:3333

场景二使用e_search_table_map筛选出cid字段相同的客户信息

使用e_search_table_map函数对Logstore（check-in_logstore）和Logstore（user_logstore）做搜索匹配，搜索Logstore（check-in_logstore）中cid字段，返回该数据中的room_number字段和字段值，与Logstore（user_logstore）中的数据拼接，生成新的数据。

加工规则

e_search_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"LT***6F",

"9D***R7",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "room_number"],

from_time="begin",

"cid",

"room_number",

)

加工结果

topic:xxx

city:xxx

cid:12345

name:maki

room_number:1111

topic:xxx

city:xxx

cid:12346

name:vicky

room_number:2222

topic:xxx

city:xxx

cid:12347

name:mary

room_number:3333

场景三获取到房号为某值的客户信息

通过fetch_include_data设置白名单，获取指定字段的数据。例如fetch_include_data="room_number:1111"表示在获取数据过程中，获取room_number值为1111的数据，与Logstore（user_logstore）中的数据拼接，生成新的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"LT***6F",

"9D***R7",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "name", "room_number", "status"],

fetch_include_data="room_number:1111",

"cid",

"room_number",

)

加工结果

topic:xxx

city:xxx

cid:12347

name:mary

topic:xxx

city:xxx

cid:12346

name:vicky

topic:xxx

city:xxx

cid:12345

name:maki

room_number:1111

场景四过滤掉房号为固定值的客户信息

通过fetch_exclude_data设置黑名单，过滤指定字段的数据。例如fetch_exclude_data="room_number:1111"表示在获取数据过程中，丢弃room_number值为1111的数据，与Logstore（user_logstore）中的数据拼接，生成新的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"LT***6F",

"9D***R7",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "name", "room_number", "status"],

fetch_exclude_data="room_number:1111",

"cid",

"room_number",

)

加工结果

topic:xxx

city:xxx

cid:12347

name:mary

room_number:3333

topic:xxx

city:xxx

cid:12346

name:vicky

room_number:2222

topic:xxx

city:xxx

cid:12345

name:maki

场景五获取已经离开的客户信息

通过配置primary_keys数据和设置delete_data，过滤不需要进行加工的数据。例如在名为check-in_logstore的Logstore中，获取已经离开的客户的信息，如果获取到的数据中包含status:check in表示客人未离开，则开启主键维护功能不加工该数据，即通过delete_data="status:check in"来过滤不需要进行加工的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"LT***6F",

"9D***R7",

"test-gy-cd",

"check-in_logstore",

["cid", "name", "room_number", "status", "time"],

primary_keys="cid",

delete_data="status:check in",

"cid",

["room_number", "status"],

)

加工结果

cid:12347

city:xxx

name:mary

topic:xxx

cid:12346

city:xxx

name:vicky

topic:xxx

cid:12345

city:xxx

name:maki

topic:xxx

room_number:1111

status:leave

场景六密钥未知时，使用slr服务角色授权，获取cid字段相同的客户信息

使用slr服务角色授权，通过两个Logstore中相同的cid字段进行匹配，只有cid字段的值完全相同，才能匹配成功。匹配成功后，返回Logstore（check-in_logstore）中的room_number字段和字段值，与Logstore（check-in_logstore）中的数据拼接，生成新的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "room_number"],

from_time="08-31 19:00:02 8:00",

role_arn="acs:ram::***:role/aliyunserviceroleforslsaudit",

"cid",

"room_number",

)

加工结果

cid:12347

city:xxx

name:mary

room_number:3333

topic:xxx

cid:12346

city:xxx

name:vicky

room_number:2222

topic:xxx

cid:12345

city:xxx

name:maki

room_number:1111

topic:xxx

场景七密钥未知时，使用自定义角色授权，获取cid字段相同的客户信息

使用自定义（gy-new-role）角色授权，通过两个Logstore中相同的cid字段进行匹配，只有cid字段的值完全相同，才能匹配成功。匹配成功后，返回Logstore（check-in_logstore）中的room_number字段和字段值，与Logstore（check-in_logstore）中的数据拼接，生成新的数据。

加工规则

e_table_map(

res_log_logstore_pull(

"cn-chengdu.log.aliyuncs.com",

"",

"test-gy-cd",

"check-in_logstore",

fields=["cid", "room_number"],

from_time="08-31 19:00:02 8:00",

role_arn="acs:ram::***:role/gy-new-role",

"cid",

"room_number",

)

加工结果

cid:12347

city:xxx

name:mary

room_number:3333

topic:xxx

cid:12346

city:xxx

name:vicky

room_number:2222

topic:xxx

cid:12345

city:xxx

name:maki

room_number:1111

topic:xxx

SLS数据加工实现跨Logstore维表富化

阿里云日志服务介绍

什么是跨Logstore维表富化

函数简介

函数格式

参数说明

返回结果

场景应用

原始数据

场景一使用e_table_map筛选cid字段相同的客户信息

加工规则

加工结果

场景二使用e_search_table_map筛选出cid字段相同的客户信息

加工规则

加工结果

场景三获取到房号为某值的客户信息

加工规则

加工结果

场景四过滤掉房号为固定值的客户信息

加工规则

加工结果

场景五获取已经离开的客户信息

加工规则

加工结果

场景六密钥未知时，使用slr服务角色授权，获取cid字段相同的客户信息

加工规则

加工结果

场景七密钥未知时，使用自定义角色授权，获取cid字段相同的客户信息

加工规则

加工结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

SLS数据加工实现跨Logstore维表富化

阿里云日志服务介绍

什么是跨Logstore维表富化

函数简介

函数格式

参数说明

返回结果

场景应用

原始数据

场景一 使用e_table_map筛选cid字段相同的客户信息

加工规则

加工结果

场景二 使用e_search_table_map筛选出cid字段相同的客户信息

加工规则

加工结果

场景三 获取到房号为某值的客户信息

加工规则

加工结果

场景四 过滤掉房号为固定值的客户信息

加工规则

加工结果

场景五 获取已经离开的客户信息

加工规则

加工结果

场景六 密钥未知时，使用slr服务角色授权，获取cid字段相同的客户信息

加工规则

加工结果

场景七 密钥未知时，使用自定义角色授权，获取cid字段相同的客户信息

加工规则

加工结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景

场景一使用e_table_map筛选cid字段相同的客户信息

场景二使用e_search_table_map筛选出cid字段相同的客户信息

场景三获取到房号为某值的客户信息

场景四过滤掉房号为固定值的客户信息

场景五获取已经离开的客户信息

场景六密钥未知时，使用slr服务角色授权，获取cid字段相同的客户信息

场景七密钥未知时，使用自定义角色授权，获取cid字段相同的客户信息