日志服务之数据清洗与入湖

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。

日志服务之数据清洗与入湖


1. 云起实验室实验资源方式介绍

云起实验室实验资源方式介绍

云起实验室支持实验资源体验、领取免费试用额度、个人账户资源三种实验资源方式。

  • 实验资源体验
  • 资源归属于客户,仅供本次实验使用
  • 实验结束后,实验资源及实验记录将被释放。
  • 资源创建过程需要3~5分钟(视资源不同开通时间有所差异,ACK等资源开通时间较长)。完成实验资源的创建后,在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如子用户名称、子用户密码、AK ID、AK Secret、资源中的项目名称等)。
  • 说明:实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建。

  • 领取免费试用额度
  • 使用个人账号开通试用,平台仅提供手册参考。
  • 所有实验操作将保留至您的账号,请谨慎操作。
  • 在实验页面下方卡片会展示本实验支持的试用规格,可以选择你要试用的云产品资源进行开通。您在实验过程中,可以随时用右下角icon唤起试用卡片。阿里云支持试用的产品列表、权益及具体规则说明请参考开发者试用中心
  • 说明:试用云产品开通在您的个人账号下,并占用您的试用权益。如试用超出免费试用额度,可能会产生一定费用。

  • 个人账户资源
  • 使用您个人的云资源进行操作,资源归属于个人。
  • 所有实验操作将保留至您的账号,请谨慎操作。
  • 平台仅提供手册参考,不会对资源做任何操作。
  • 说明:使用个人账户资源,在创建资源时,可能会产生一定的费用,请您及时关注相关云产品资源的计费概述。

准备开始实验

在实验开始前,请您选择其中一种实验资源,单击确认开启实验

说明:每个实验所支持的实验资源方式都不相同,实验不一定能满足有三种实验资源方式,请根据实验的实际情况,进行选择。

2. 领取免费试用资源

实验前必看!

  • 如果您的阿里云主账号符合开通免费试用的资格,建议您开通免费试用日志服务,日志服务免费试用时长为3个月,每个月100CU额度,超出免费额度的用量,计入按量付费,会产生后付费账单,具体计费详情,请参见计费概述
  • 为了避免资源浪费并造成账号扣费的情况,请严格按照本文提供的参数进行配置。在实验完成之后,请您及时删除或禁用压测任务。
  1. 在实验开始前,请您选择开通免费试用

  1. 开通日志服务SLS免费试用。

2.1 在实验室页面下方,选择日志服务SLS,单击立即试用

2.2 在日志服务SLS面板上,选中服务协议,单击立即试用

  1. 开通对象存储OSS免费试用。

3.1 在实验室页面下方,选择对象存储OSS,单击立即试用

3.2 在对象存储OSS面板,选中服务协议,然后单击立即试用,如弹出新的页面,您可先忽略。

  1. 领取完免费试用后,返回资源领取界面,单击我已开通,进入实验

说明:如果您的阿里云账号只能领取部分免费试用产品,请您领取符合免费试用资格的产品,然后进入实验,不满足免费试用资格的产品将会使用个人账户资源进行创建,并会产生一定的费用,请您及时关注账户扣费。

3. 创建资源

  1. 开通日志服务SLS。

说明:

  • 如果您选择的免费试用,并且在上一步骤中领取了日志服务SLS免费试用,请您跳过本步骤,直接进行下一小节操作。
  • 如果您选择的免费试用,但是您的阿里云主账号没有资格领取日志服务SLS的免费试用,请您根据如下操作,开通日志服务SLS,进行按量付费,会产生后付费账单,具体计费详情,请参见计费概述
  • 如果您选择的个人资源,请您根据如下操作,开通日志服务SLS,进行按量付费,会产生后付费账单,具体计费详情,请参见计费概述

1.1 登录日志服务控制台

1.2 根据页面提示,开通日志服务。

日志服务的计费说明,请参见计费概述

  1. 创建对象存储OSS。

说明:

  • 如果您选择的免费试用,并且在上一步骤中领取了对象存储OSS的免费试用,请您根据如下操作,创建Bucket。
  • 如果您选择的免费试用,但是您的阿里云主账号没有资格领取对象存储OSS的免费试用,请您根据如下操作,创建Bucket,并且会产生一定的费用,详情请参考计费概述
  • 如果您选择的个人资源,请您根据如下操作,创建Bucket,并且会产生一定的费用,详情请参考计费概述

1.1 前往对象存储OSS控制台,在左侧导航栏中,单击Bucket列表

1.2 在Bucket列表页面,单击创建Bucket

1.3 在创建Bucket面板,参考如下说明配置Bucket,未提及的配置保持默认选项,然后单击确定

配置项

示例

说明

Bucket名称

自定义Bucket名称

自定义Bucket名称。

地域

华东1(杭州)

选择与云服务器ECS相同的地域

4. 接入NGINX模拟数据

本步骤将指导您如何使用日志服务接入NGINX模拟数据。

  1. 双击打开虚拟桌面的Chromium网页浏览器
  2. 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码用户密码输入框,单击登录
  3. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问日志服务控制台。
https://sls.console.aliyun.com/
  1. 日志服务控制台下方的Project列表中,选择Project资源所在地域,然后单击Project名称。

说明 您可以在云产品资源列表中查看Project资源所在地域和Project名称如果出现“错误”弹窗直接关闭,不影响实验

  1. 在日志存储页面左侧,单击日志库下的图标。

  1. 创建Logstore对话框中,输入Logstore名称,打开WebTracking开关,然后单击确定

参数说明:

  • Logstore名称:输入target。
  • WebTracking:打开WebTracking开关,您可以通过WebTracking从HTML、H5、iOS或Android上采集数据到日志服务。

  1. 创建成功对话框中,单击取消

  1. 在日志存储页面左侧,选择target>数据接入>模拟接入,然后单击图标。

  1. 快速接入面板中,单击NGINX访问日志下的模拟接入

  1. 模拟接入页面,单击开始导入

  1. 模拟接入页面,等待大约一分钟,模拟数据生成后,单击开始使用

返回如下页面,您可以看到生成的NGINX模拟数据。

5. 接入NGINX模拟数据

本步骤将指导您如何使用日志服务接入NGINX模拟数据。

  1. 前往日志服务控制台
  2. 创建Project。

2.1在Project列表区域,单击创建Project

2.2 在创建Project面板,选择所属地域华东1(杭州),并配置Project名称test,单击创建

说明:Project名称全局唯一,如果提示已被占用,请您更换名称重新创建。

  1. 创建Logstore。

3.1 在创建Project对话框中,单击创建Logstore

3.2 在创建Logstore对话框中,按如下说明配置各项参数,其余参数保持默认,单击确定

参数

赋值

说明

Logstore名称

test-logstore

自定义Logstore名称,在其所属Project内必须唯一。创建Logstore成功后,无法更改其名称。

WebTracking

启用

打开WebTracking开关,您可以通过WebTracking从HTML、H5、iOS或Android上采集数据到日志服务。

  1. 接入NGINX模拟数据

4.1 在创建成功对话框中,单击取消

4.2 Project列表区域,单击您的Project

在日志存储页面左侧,选择target>数据接入>模拟接入,然后单击图标。

4.3 在快速数据接入面板中,单击NGINX访问日志下的模拟接入

4.4 模拟接入页面,单击开始导入

4.5 模拟接入页面,等待大约一分钟,模拟数据生成后,单击开始使用

返回如下页面,您可以看到生成的NGINX模拟数据。

6. 创建数据加工

本步骤将指导您如何创建数据加工,将status字段不为200的请求日志存储到目标库中,并查看目标库日志。

  1. 在日志存储页面左侧,单击日志库右侧的图标。

  1. 创建Logstore对话框中,输入Logstore名称,打开WebTracking开关,然后单击确定

说明 :该Logstore用来存储status字段不为200的请求日志。

参数说明:

  • Logstore名称:输入target-1。
  • WebTracking:打开WebTracking开关,您可以通过WebTracking从HTML、H5、iOS或Android上采集数据到日志服务。

  1. 创建成功对话框中,单击取消

  1. 在日志存储页面左侧,单击target-1

  1. 错误对话框中,单击关闭

  1. target-1页签右上方,单击开启索引

  1. 查询分析面板中,打开全文索引,单击确定

  1. 查询分析设置对话框中,单击确认

  1. target-1页签左侧,单击target

  1. target页签,单击数据加工

  1. target数据加工页签,输入如下加工语句,单击保存数据加工
e_drop(e_search("status:200"))

  1. 创建数据加工规则面板,输入规则名称,单击添加,然后配置存储目标,时间范围选择为某时间,单击确定

参数说明:

  • 规则名称:自定义规则名称,例如nginx-data-cleaning。
  • 目标名称:存储目标的名称,输入target-1。
  • 目标Region:选择您的Project资源所在地域。
  • 目标Project:选择您的Project名称。
  • 目标库:选择target-1。
  • 时间范围:选择所有。

  1. 创建结果对话框中,单击确认

  1. target页签左侧,单击target-1

  1. target-1页签右上方,单击查询/分析

返回如下页面,您可以看到在目标库target-1中的日志,只有status字段非200的日志。

说明:如果查询不到日志,请您稍等片刻,再次单击查询/分析,即可查询到日志。


7. 日志投递

本步骤将指导您如何将数据加工后的日志投递到对象存储OSS。

  1. target-1页签页面左侧,选择target-1>数据处理>导出>OSS(对象存储),然后单击图标。

  1. OSS投递功能对话框中,参考如下配置,其他配置保持默认即可,单击确定

参数说明:

  • 投递版本:选择新版(推荐)。
  • OSS投递名称:自定义OSS投递名称,例如test。
  • OSS Bucket:输入Bucket Name。您可以在云产品资源列表中查看到Bucket Name。
  • 文件投递目录:输入Object路径。您可以在云产品资源列表中查看到Object路径,需要去掉末尾正斜线(/)。

  1. 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问对象存储OSS控制台。
https://oss.console.aliyun.com/overview
  1. 在左侧导航栏中,单击Bucket列表

  1. Bucket列表页面,找到您的Bucket名称,单击Bucket名称

  1. 在文件管理页签,单击云产品资源列表中的Object路径,您就可以在文件夹中就存储着数据加工后的日志。

说明:请您耐心等待大约1-5分钟,即可看到投递到OSS中的数据加工后的日志。


8. 日志投递

本步骤将指导您如何将数据加工后的日志投递到对象存储OSS。

  1. target-1页签页面左侧,选择日志库>target-1>数据处理>导出>OSS(对象存储),然后单击图标。。

  1. OSS投递功能对话框中,参考如下配置,其他配置保持默认即可,单击确定

参数说明:

  • 投递版本:选择新版(推荐)。
  • OSS投递名称:自定义OSS投递名称,例如test。
  • OSS Bucket:输入您创建的Bucket。

  1. 前往对象存储OSS控制台
  2. 在左侧导航栏中,单击Bucket列表

  1. Bucket列表页面,找到您的Bucket名称,单击Bucket名称

  1. 文件列表页面,稍等片刻并刷新页面,您就可以在文件列表页面中看到存储着数据加工后的日志的文件夹,单击文件夹后您即可看到日志。

说明:请您耐心等待大约1-5分钟,即可看到投递到OSS中的数据加工后的日志。


9. 释放资源

在实验完成之后,请您及时释放资源。如果您需要继续使用资源,请关注账户扣费情况。

说明:

  • 日志服务SLS提供3个月100 CU的免费试用资源。如果需继续使用日志服务,请务必至少在存储包试用到期1小时前为您的阿里云账号充值或购买新的存储包。欠费后如果在延停权益额度内,您的服务将不会受到停服影响。欠费后如果超出了延停权益额度,日志服务将自动停止。而您所占用的存储资源仍会继续扣费,因此欠费会累积。如果您在日志服务停服后7天内充值补足欠费,日志服务会自动启用。停服超过7天,将视为您主动放弃服务,日志服务Project将被回收,数据会被清理且不可恢复。请注意,数据清理之前仍会继续计费,若您确认不再使用日志服务,请务必删除日志服务上的资源。

清理

  1. 释放日志服务SLS。

如果无需继续使用日志服务,您可以登录日志服务控制台,找到目标Project,删除目标Project。

  1. 释放对象存储OSS。

如果无需继续使用OSS Bucket,您可以登录对象存储OSS控制台,在Bucket列表页面,找到您的OSS Bucket,单击Bucket名称。在文件列表页面,在文件右侧操作列,单击彻底删除,根据界面提示删除文件。然后在左侧导航栏,单击删除Bucket。在删除Bucket页面,单击删除Bucket,然后根据界面提示删除Bucket。

后续

在试用有效期期间,您还可根据希望测试的其它业务场景继续使用日志服务。

实验链接:https://developer.aliyun.com/adc/scenario/10c085942f0e4b2d83ba08bf077b41cf

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-1
日志服务之数据清洗与入湖-1
121 0
日志服务之数据清洗与入湖-1
|
数据采集 存储 监控
日志服务之数据清洗与入湖-4
日志服务之数据清洗与入湖-4
109 0
日志服务之数据清洗与入湖-4
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-2
日志服务之数据清洗与入湖-2
111 0
日志服务之数据清洗与入湖-2
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-3
日志服务之数据清洗与入湖-3
136 0
日志服务之数据清洗与入湖-3
|
存储 数据采集 Web App开发
半天掌握日志存储 云启实验室系列课程 第三讲 | 日志服务之数据清洗与入湖
半天掌握日志存储 云启实验室系列课程 第三讲 | 日志服务之数据清洗与入湖 本教程介绍如何使用日志服务接入 NGINX 模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储 专家支持:阿里云日志服务技术专家 王星宇 唐恺
476 0
半天掌握日志存储 云启实验室系列课程 第三讲 | 日志服务之数据清洗与入湖
|
数据采集 Web App开发 存储
日志服务之数据清洗与-4
日志服务之数据清洗与-4
136 0
|
12天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
121 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
224 3
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1630 14
|
1月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
31 0

相关产品

  • 日志服务