Docker时代——如何实现日志数据一键上云

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 1 准备工作 1.1 开通MaxCompute服务 参考使用MaxCompute的准备工作 1.2 开通Datahub服务 进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通) 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。

一、 准备工作

1.1 开通MaxCompute服务

参考使用MaxCompute的准备工作

1.2 开通Datahub服务

进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通)

1.3 安装Docker环境

Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。
在阿里云ECS上,以CentOS 7.2为例,安装方式如下:

sudo yum install docker
sudo systemctl enable docker
sudo systemctl start docker

二、 运行数据采集的Docker镜像

以Web服务器Nginx的日志采集为例,假设Nginx的日志在服务器的路径为/var/www/all.log,日志样例如下所示:

192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"

运行如下的命令,配置其中ACCESS_ID,ACCESS_KEY, DATAHUB_PROJECT,MAXCOMPUTE_PROJECT和MAXCOMPUTE_TABLE等必要的参数,即可启动日志采集插件的docker镜像,实现将指定的日志按行导入Datahub,并自动归档到MaxCompute的表中。

docker run  -v /var/www:/var/www:ro -e DATA_COLLECTOR_TYPE=classic -e ACCESS_ID={YOUR_ACCESS_ID} -e ACCESS_KEY={YOUR_ACCESS_KEY} -e DATAHUB_PROJECT={YOUR_DATAHUB_PROJECT} -e MAXCOMPUTE_PROJECT={YOUR_MAXCOMPUTE_PROJECT}  -e MAXCOMPUTE_TABLE={YOUR_MAXCOMPUTE_TABLENAME} -e DATA_FILE_PATH=/var/www/.*.log  registry.cn-hangzhou.aliyuncs.com/aliyun_maxcompute/data_collectors:1.0

该日志采集插件会监控所指定的日志文件,不断地将新增的日志上传,在正常情况下,Datahub的project里会自动创建一个名为maxcompute_data_collect_topic的topic,MaxCompute的project中会自动创建指定名字的表,表的schema如下所示:

+------------------------------------------------------------------------------------+
| Native Columns:                                                                    |
+------------------------------------------------------------------------------------+
| Field           | Type       | Label | Comment                                     |
+------------------------------------------------------------------------------------+
| line            | string     |       |                                             |
+------------------------------------------------------------------------------------+
| Partition Columns:                                                                 |
+------------------------------------------------------------------------------------+
| pt              | string     |                                                     |
+------------------------------------------------------------------------------------+

三、 数据分析

在docker镜像跑起来后,日志数据就源源不断地导入MaxCompute的表中了,数据默认会按照采集的时间按天进行分区。例如我们想知道20170210这天192.168.1.6这个ip的访问次数可以简单的用下面的SQL完成。

select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;

更多复杂的分析,可以通过编写UDF或者MR作业来完成,可以参考MaxCompute的官方文档了解更多。

四、相关阅读

  1. 云数据,大计算—海量日志数据分析与应用
  2. 数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
10天前
|
存储 Kubernetes Docker
|
6天前
|
存储 安全 数据管理
Docker中实现数据持久化
【10月更文挑战第8天】
8 1
|
10天前
|
存储 数据库 Docker
|
13天前
|
存储 安全 Docker
docker中数据持久化(Volumes)
【10月更文挑战第3天】
19 4
|
12天前
|
存储 Kubernetes 数据库
docker数据持久化问题
【10月更文挑战第4天】
12 2
|
16天前
|
关系型数据库 MySQL 数据库
使用Docker部署的MySQL数据库,数据表里的中文读取之后变成问号,如何处理?
【10月更文挑战第1天】使用Docker部署的MySQL数据库,数据表里的中文读取之后变成问号,如何处理?
42 3
|
16天前
|
数据采集 机器学习/深度学习 存储
使用 Python 清洗日志数据
使用 Python 清洗日志数据
20 2
|
1月前
|
存储 数据管理 应用服务中间件
Docker的数据管理实战篇
关于Docker数据管理实战的教程,涵盖了Docker数据卷的使用、特点、场景以及数据卷容器的概念和应用。
57 13
Docker的数据管理实战篇
|
2月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
2月前
|
缓存 NoSQL Linux
【Azure Redis 缓存】Windows和Linux系统本地安装Redis, 加载dump.rdb中数据以及通过AOF日志文件追加数据
【Azure Redis 缓存】Windows和Linux系统本地安装Redis, 加载dump.rdb中数据以及通过AOF日志文件追加数据
110 1
【Azure Redis 缓存】Windows和Linux系统本地安装Redis, 加载dump.rdb中数据以及通过AOF日志文件追加数据