【大数据新手上路】“零基础”系列课程--日志服务(Log Service)采集 ECS 日志数据到 MaxCompute

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本实验通过日志服务采集ECS日志数据并离线同步到MaxCompute,帮助用户按照不同的场景和需求、以不同的方式复用数据,充分发挥日志数据的价值 。

随着公司业务的增多,云服务器 ECS 上的日志数据越来越多,存储开销越来越大,受限于日志的大小和格式,分析的速度非常缓慢,导致海量数据在沉睡,不知道发挥作用,如何能将这些数据进行归集、提炼和智能化的处理始终是一个困扰。通过日志服务投递日志数据到MaxCompute便可以让用户按照不同的场景和需求、以不同的方式复用数据,充分发挥日志数据的价值。

使用日志服务投递日志数据到MaxCompute具有如下优势:

  • 使用非常简单。用户只需要完成2步配置即可以把日志服务Logstore的日志数据迁移到MaxCompute中。
  • 避免重复收集工作。由于日志服务的日志收集过程已经完成不同机器上的日志集中化,无需重复在不同机器上收集一遍日志数据后再导入到MaxCompute。
  • 充分复用日志服务内的日志分类管理工作。用户可让日志服务中不同类型的日志(存在不同Logstore中)、不同Project的日志自动投递到不同的MaxCompute表格,方便管理及分析MaxCompute内的日志数据。

备注:大部分情况下日志数据在写入Logstore后的0.5~1个小时导入到MaxCompute,用户可以在控制台“投递任务管理”查看导入状态。导入成功后用户即可在MaxCompute内查看到相关日志数据。

下面介绍一个适用于中小企业用户,高效率低成本的日志采集存储方案:

对于云服务器 ECS 上的日志,可以通过日志服务进行收集,然后投递至 MaxCompute 进行存储与分析,流程图如下:

11

ECS:云服务器 ECS 是一种简单高效、可以弹性伸缩的计算服务;

日志服务(Log Service):针对日志类数据的一站式服务,用户无需开发便可快速完成数据采集、消费、投递以及查询分析等功能;

MaxCompute:原名 ODPS,是由阿里云自主研发的一款服务,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,它适用于海量数据的存储、计算,商业智能等领域。

实验目的和前期说明

实验目的:
通过 Log Service 采集 ECS 日志并投递到 MaxCompute 上。

前期说明:

  1. 本实验在 Windows 环境下操作; (拥有 Linux 环境的用户在准备 ECS 日志数据时请参见:Linux 实例 进行操作)
  2. 用户拥有阿里云官网实名认证账号,并且创建好账号 Access Key ;
  3. 用户拥有一定的开发经验。

实验前的准备工作

开通MaxCompute

阿里云实名认证账号访问 https://www.aliyun.com/product/odps ,开通 MaxCompute,选择按量付费进行购买 。

1

1

1

准备 ECS 日志数据

购买云服务器 ECS 并创建 Windows 实例

1 . 进入 云服务器 ECS 产品页,点击 立即购买

2 . 根据自身需求对弹出框中的计费方式、地域、网络、实例、带宽、镜像、存储和购买量进行配置,更为详细的步骤说明请参见:创建 Windows 实例

3 . 单击页面右侧下方的 立即购买,确认订单并付款 。

您可进入 云服务器管理控制台 单击实例 ID 或者 管理,进入 实例详情 页面查看实例的相关信息 。

连接 windows 实例并准备日志数据

连接 Windows 实例
连接 Windows 实例的方式有三种:远程桌面连接、管理控制台连接和手机连接,本教程以远程桌面连接作为示例,具体操作如下:

注意:采用这种方式登录,请确保实例能访问公网 。如果在创建实例时没有购买带宽,则不能使用远程桌面连接 。如果您需要通过其他方式连接实例,请参见:连接 Windows 实例 进行操作 。

1 . 单击 开始 图标 > 远程桌面连接;

2 . 在 远程桌面连接 对话框中,输入实例的公网 IP 地址,单击 显示选项

1

3 . 输入用户名,默认为 Administrator,如果您希望以后连接时不再手动输入密码,可以勾选 允许我保存凭据 。如果不需要再做其它设置,可以直接单击 连接按钮;

1

备注:如果您未设置或忘记实例的登录密码(不是管理终端的密码),请 重置密码

4 . 单击 本地资源 选项卡进行设置,选择 剪贴板 后,点击 详细信息,选择 驱动器,然后选择文件存放的盘符 。如下图所示:

1

1

备注:通过以上设置可以方便地将本地文件拷贝到实例中 。

准备离线日志文件
在 ECS 服务器中创建日志文件,举例一条数据如下:

ip:10.200.98.220

status:200

thread:414579208

time:27/Jan/2016:20:50:13 +0800

url:POST /PutData?Category=YunOsAccountOpLog&AccessKeyId=U0UjpekFQOVJW45A&Date=Fri%2C%2028%20Jun%202013%2006%3A53%3A30%20GMT&Topic=raw&Signature=pD12XYLmGxKQ%2Bmkd6x7hAgQ7b1c%3D HTTP/1.1

user-agent:aliyun-sdk-java 

备注:

1 . 以上仅为数据示例,日志源数据见:logstore

2 . 日志左侧的 ip、status、thread、time、url、user-agent 等是日志服务数据的字段名称,需在下方配置中用到。

开通日志服务

使用注册成功的阿里云账号登录 日志服务产品页,单击 立即开通

1

准备密钥对

日志服务管理控制台,将鼠标移至页面右上角您的用户名上方,在显示的菜单中单击 accesskeys ,确认 Access Key 的状态为“启用”。如下图所示:

4

注意:Access Key 是 logtail 收集日志数据的必要条件,如果一旦没有启用,请参见: 创建密钥对 来进行创建 。

创建项目

注意:项目名称创建后不能修改 。

1 . 登录 日志服务管理控制台

2 . 单击右上角的 创建 Project

3 . 填写 Project 名称所属地域,单击 确认

1

创建日志库

创建完项目后,系统会提示您创建日志库,单击 创建,配置如下图所示:

1

备注:您若想要了解日志库各项配置信息的详情,请参见:创建日志库

安装 Logtail

1 . 下载安装包

在云服务器 ECS 中下载 Logtail 安装包,下载地址:http://logtail-release.oss-cn-hangzhou.aliyuncs.com/win/logtail_installer.zip

2 . 按机器网络环境和日志服务所在 Region 进行安装

解压缩 logtail.zip 到当前目录,以管理员身份运行 cmd 进入 logtail_installer 目录 ,输入安装命令 logtail_installer.exe install cn_beijing 进行安装,如下图所示:

11

备注:您需按照自己的机器网络环境和日志服务所在 Region 输入相应的安装命令 ,详情请参见:安装命令,此处以华北 2(北京)的 ECS 经典网络为例 。

通过 Logtail 实时采集日志

创建 Logtail 配置

创建完 logstore 后,系统会提示您创建 Logtail 配置收集日志数据,点击 创建 Logtail 配置;

选择数据源

选择数据源,如下图所示:

1

指定收集模式

  • 指定日志的目录结构

注意:一个文件只能被一个配置收集 。

1

  • 指定收集模式为分隔符模式

    • 输入日志样例;

    1

    • 选择分隔符为 制表符
    • 为提取字段命名(设定对于字段的 Key);

    1

    • 设置使用系统时间;
    • 根据自身需求设置高级选项(可选)。

    1

设置完成后,单击 下一步

应用到机器组

勾选需要的机器组并单击 应用到机器组

如果您未创建机器组,需单击页面中的 创建机器组 进行创建,如图所示:

1

备注:云服务器的实例内网 IP 可到 云服务器 ECS 管理控制台 进行查看 。

查看收集的日志

完成上述配置后,日志服务即可收集日志 。您可在 LogStore 列表 页面,选择要查看的日志库并单击日志消费列下的 预览 进行查看,如下图所示:

1

MaxCompute 目标表准备

数据类型映射

MaxCompute 列名 MaxCompute 列类型 日志服务字段名 日志服务字段类型
log_source string _source_ 系统保留字段
log_time string _time_ 系统保留字段
log_topic string _topic_ 系统保留字段
time string time 日志内容字段
ip string ip 日志内容字段
thread string thread 日志内容字段
log_extract_others string _extract_others_ 系统保留字段
log_partition_time string _partition_time__ 系统保留字段
status string status 日志内容字段

创建 MaxCompute 项目

1 . 导航至 产品->大数据(数加)-> MaxCompute 页面, 点击管理控制台;

2 . 创建项目 。进入控制台页面后导航至 大数据开发套件->项目列表,点击 创建项目,如图所示:

1

在弹出框中选择 I/O 后付费的付费方式,输入项目名称:

1

创建 MaxCompute 目标表

创建完项目后,点击项目列表下对应项目操作栏中的 进入工作区,进入数据开发页面,如下图所示:

1

新建脚本文件 。点击上图中的“新建脚本”任务框,编辑建表语句,如下所示:

 DROP TABLE IF EXISTS tmall;
 CREATE TABLE tmall (
 log_source string,
 log_time bigint,
 log_topic string,
 time string,
 ip string,
 thread string,
 log_extract_others string
)
PARTITIONED BY (
log_partition_time STRING ,
status string
);

点击运行,确认建表成功 。

投递日志到 MaxCompute

开启投递

进入 LogStore 列表 页面,点击对应 LogStore 后的 ODPS,进入投递管理页面,点击 开启投递,如下图所示:

1

投递配置

开启投递后跳转至 LogHub —— 数据投递 页面,在该页面需要配置投递大数据计算服务 MaxCompute(原 ODPS)的相关内容:

1

备注:__source__、__time__、__topic__、__extract_others__和__partition_time__是日志服务的系统保留字段,建议使用 。对于映射配置的限制详情请参见: 日志数据投递到 MaxCompute

投递任务管理

成功配置数据投递后点击 确定,可返回 MaxCompute (原 ODPS)投递管理 投递管理") 页面查看任务投递状态,如下图所示:

1

检查 MaxCompute 表数据

任务投递状态显示为 成功 后,可进入大数据开发套件管理控制台,查询 MaxCompute 表中是否有数据写入,如下图所示:

1

通过以上操作将云服务器 ECS 的日志成功投递到 MaxCompute 后,您还可以对日志数据进行分析与应用,详情请参见以下文章:

  1. 数据加工:用户画像
  2. 数据分析与展现:可视化报表及嵌入应用
  3. 社交数据分析:好友推荐
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
13天前
|
存储 数据挖掘
服务器数据恢复—用RAID5阵列中部分盘重建RAID5如何恢复原raid5阵列数据?
服务器数据恢复环境: 一台服务器挂接一台存储,该存储中有一组由5块硬盘组建的RAID5阵列。 服务器故障: 存储raid5阵列中有一块硬盘掉线。由于RAID5的特性,阵列并没有出现问题。工作一段时间后,服务器出现故障,用户方请人维修。维修人员在没有了解故障磁盘阵列环境的情况下,用另外4块硬盘(除去掉线的硬盘)重新创建了一组全新的RAID5阵列并完成数据同步,导致原raid5阵列数据全部丢失。
|
2月前
|
存储 弹性计算 缓存
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
阿里云服务器ECS提供了多种通用型实例规格族,每种规格族都针对不同的计算需求、存储性能、网络吞吐量和安全特性进行了优化。以下是对存储增强通用型实例规格族g8ise、通用型实例规格族g8a、通用型实例规格族g8y、存储增强通用型实例规格族g7se、通用型实例规格族g7等所有通用型实例规格族的详细解析,包括它们的核心特点、适用场景、实例规格及具体指标数据,以供参考。
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
|
26天前
|
Python
Flask学习笔记(三):基于Flask框架上传特征值(相关数据)到服务器端并保存为txt文件
这篇博客文章是关于如何使用Flask框架上传特征值数据到服务器端,并将其保存为txt文件的教程。
28 0
Flask学习笔记(三):基于Flask框架上传特征值(相关数据)到服务器端并保存为txt文件
|
30天前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
49 3
|
1月前
|
弹性计算 Linux 数据库
阿里云国际版如何迁移Linux云服务器系统盘中的数据
阿里云国际版如何迁移Linux云服务器系统盘中的数据
|
30天前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
41 1
|
2月前
|
存储 弹性计算 网络协议
阿里云ECS内存型实例规格族特点、适用场景、指标数据参考
阿里云ECS提供了多样化的内存型实例规格族,专为需要高性能内存资源的应用场景设计。从最新的r8a系列到经过优化的re6p系列,旨在提供稳定、高效且安全的计算环境。这些实例不仅具备强大的计算性能与内存配比,还通过支持ESSD云盘和高效网络协议,显著提升了存储I/O能力和网络带宽,适用于大数据分析、高性能数据库、内存密集型应用等多种场景,为用户带来卓越的计算体验。本文将详细解析阿里云ECS中的多个内存型实例规格族,包括它们的核心特点、适用场景、实例规格及具体指标数据,为用户在云计算资源选型时提供参考。
|
2天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
64 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
28天前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
176 3
|
29天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1607 14

相关产品

  • 云原生大数据计算服务 MaxCompute