导入MaxCompute数据到日志服务实战

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
对象存储 OSS,内容安全 1000 次 1年
简介: 日志服务支持将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值

简介

日志服务(Log Service,简称 SLS)是针对日志类数据的一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能,提升运维、运营效率,建立 DT 时代海量日志处理能力。
将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值。

未命名绘图.jpg

日志服务提供的数据导入功能,支持从OSS,MaxCompute,Kafka等数据源同步数据。使用数据导入同步数据具备如下的优势:

  • 配置简单,用户仅需在日志服务控制台完成简单配置即可实现导入。
  • 导入服务完全由日志服务托管,无需运维。
  • 支持动态水平扩展,根据用户的数据量自动分配资源,实现快速导入。

日志服务基本概念

  • 日志:日志服务中处理的最小数据单元,每行日志包含日志发生时间和一组key-value 均为字符串格式的字段列表。
  • 项目(Project):日志服务中的资源管理单元,用于资源隔离和控制,管理着用户的所有日志库等资源。
  • 日志库(Logstore):日志数据的采集、存储和查询单元。每个日志库属于一个项目,且每个项目可以创建多个日志库。

MaxCompute 介绍

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。

MaxCompute 基本概念

  • 项目(Project):类似于传统数据库的Database的概念,是进行多用户隔离和访问控制的主要边界。
  • 表(Table):表是MaxCompute的数据存储单元,是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列。

导入步骤

环境准备

  1. 准备需要导入的MaxCompute Project和Table,以及能够访问该Table的Access Key。
  2. 已经开通日志服务,并且已经创建好Project,Logstore和索引。

源数据预览

假设用户数据存储在 access_log 这个表里,其字段包括了String,Int,Double等类型。
image.png

配置导入任务

1 进入日志服务控制台首页,接入数据选择 MaxCompute 数据源
image.png
2 选择导入目标Project和Logstore
如果还没有创建Project和Logstore,可以从右侧立即创建入口创建。需要确认导入任务开始之前目标Logstore已经配置了合适的索引。
image.png
3 配置访问MaxCompute必需的信息,支持预览数据
image.png
参数说明

参数 说明
配置名称 导入配置的名称。
MaxCompute项目 待导入数据所在的MaxCompute项目名称。
Table 待导入数据所在的表名称。
分区描述 如果待导入的表是分区表,需要指定分许描述。分区参考 https://help.aliyun.com/document_detail/27820.html
AccessKey ID 访问MaxCompute的AccessKey ID。
AccessKey Secret 访问MaxCompute的AccessKey Secret。
Endpoint 访问MaxCompute的Endpoint。Endpoint配置可以参考文档:https://help.aliyun.com/document_detail/34951.html
Tunnel Endpoint 访问MaxCompute的Tunnel Endpoint。




3 配置时间解析方式
默认使用系统时间时间作为数据时间,用户也可以使用MaxCompute 表中的字段作为数据的时间
image.png
4 配置调度间隔
image.png
日式服务根据配置的导入间隔定时执行增量导入任务。

导入结果预览

image.png
MaxCompute表中的每行数据自动转化为一行日志数据。每列作为日志中的一个字段,列名作为日志的字段名称。各个字段类型映射为日志类型的规则如下:

MaxCompute类型 日志字段类型
Map,Array,Struct JSON string
其他类型 String

导入任务管理

创建导入任务后,日志服务自动创建用于存放导入任务诊断日志的Logstore(internal-diagnostic_log)和统计报表。导入异常时可以在诊断Logstore中查看异常原因。
image.png

更多资源

MaxCompute介绍:https://help.aliyun.com/document_detail/27800.html
日志服务介绍:https://help.aliyun.com/document_detail/48869.html
MaxCompute导入使用文档:https://help.aliyun.com/document_detail/153354.html

联系我们

如有任何问题也可以钉钉扫码进群联系我们或者关注我们的微信公众号:
image

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
59 14
|
5天前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
64 14
|
2天前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
|
8天前
|
数据采集 运维 监控
不重启、不重写、不停机:SLS 软删除如何实现真正的“无感数据急救”?
SLS 全新推出的「软删除」功能,以接近索引查询的性能,解决了数据应急删除与脏数据治理的痛点。2 分钟掌握这一数据管理神器。
|
2月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
268 1
|
14天前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
52 1
|
14天前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
60 1
|
2月前
|
机器学习/深度学习 监控 大数据
数据当“安全带”:金融市场如何用大数据玩转风险控制?
数据当“安全带”:金融市场如何用大数据玩转风险控制?
86 10
|
2月前
|
机器学习/深度学习 自然语言处理 监控
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
56 3
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
74 0

相关产品

  • 日志服务