导入MaxCompute数据到日志服务实战

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
文件存储 NAS,50GB 3个月
简介: 日志服务支持将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值

简介

日志服务(Log Service,简称 SLS)是针对日志类数据的一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能,提升运维、运营效率,建立 DT 时代海量日志处理能力。
将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值。

未命名绘图.jpg

日志服务提供的数据导入功能,支持从OSS,MaxCompute,Kafka等数据源同步数据。使用数据导入同步数据具备如下的优势:

  • 配置简单,用户仅需在日志服务控制台完成简单配置即可实现导入。
  • 导入服务完全由日志服务托管,无需运维。
  • 支持动态水平扩展,根据用户的数据量自动分配资源,实现快速导入。

日志服务基本概念

  • 日志:日志服务中处理的最小数据单元,每行日志包含日志发生时间和一组key-value 均为字符串格式的字段列表。
  • 项目(Project):日志服务中的资源管理单元,用于资源隔离和控制,管理着用户的所有日志库等资源。
  • 日志库(Logstore):日志数据的采集、存储和查询单元。每个日志库属于一个项目,且每个项目可以创建多个日志库。

MaxCompute 介绍

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。

MaxCompute 基本概念

  • 项目(Project):类似于传统数据库的Database的概念,是进行多用户隔离和访问控制的主要边界。
  • 表(Table):表是MaxCompute的数据存储单元,是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列。

导入步骤

环境准备

  1. 准备需要导入的MaxCompute Project和Table,以及能够访问该Table的Access Key。
  2. 已经开通日志服务,并且已经创建好Project,Logstore和索引。

源数据预览

假设用户数据存储在 access_log 这个表里,其字段包括了String,Int,Double等类型。
image.png

配置导入任务

1 进入日志服务控制台首页,接入数据选择 MaxCompute 数据源
image.png
2 选择导入目标Project和Logstore
如果还没有创建Project和Logstore,可以从右侧立即创建入口创建。需要确认导入任务开始之前目标Logstore已经配置了合适的索引。
image.png
3 配置访问MaxCompute必需的信息,支持预览数据
image.png
参数说明

参数 说明
配置名称 导入配置的名称。
MaxCompute项目 待导入数据所在的MaxCompute项目名称。
Table 待导入数据所在的表名称。
分区描述 如果待导入的表是分区表,需要指定分许描述。分区参考 https://help.aliyun.com/document_detail/27820.html
AccessKey ID 访问MaxCompute的AccessKey ID。
AccessKey Secret 访问MaxCompute的AccessKey Secret。
Endpoint 访问MaxCompute的Endpoint。Endpoint配置可以参考文档:https://help.aliyun.com/document_detail/34951.html
Tunnel Endpoint 访问MaxCompute的Tunnel Endpoint。




3 配置时间解析方式
默认使用系统时间时间作为数据时间,用户也可以使用MaxCompute 表中的字段作为数据的时间
image.png
4 配置调度间隔
image.png
日式服务根据配置的导入间隔定时执行增量导入任务。

导入结果预览

image.png
MaxCompute表中的每行数据自动转化为一行日志数据。每列作为日志中的一个字段,列名作为日志的字段名称。各个字段类型映射为日志类型的规则如下:

MaxCompute类型 日志字段类型
Map,Array,Struct JSON string
其他类型 String

导入任务管理

创建导入任务后,日志服务自动创建用于存放导入任务诊断日志的Logstore(internal-diagnostic_log)和统计报表。导入异常时可以在诊断Logstore中查看异常原因。
image.png

更多资源

MaxCompute介绍:https://help.aliyun.com/document_detail/27800.html
日志服务介绍:https://help.aliyun.com/document_detail/48869.html
MaxCompute导入使用文档:https://help.aliyun.com/document_detail/153354.html

联系我们

如有任何问题也可以钉钉扫码进群联系我们或者关注我们的微信公众号:
image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
142 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
149 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
1月前
|
SQL Oracle 关系型数据库
【赵渝强老师】Oracle的联机重做日志文件与数据写入过程
在Oracle数据库中,联机重做日志文件记录了数据库的变化,用于实例恢复。每个数据库有多组联机重做日志,每组建议至少有两个成员。通过SQL语句可查看日志文件信息。视频讲解和示意图进一步解释了这一过程。
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
51 3
|
2月前
|
数据采集 机器学习/深度学习 存储
使用 Python 清洗日志数据
使用 Python 清洗日志数据
49 2
|
2月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
61 0
|
3月前
|
SQL 人工智能 运维
在阿里云日志服务轻松落地您的AI模型服务——让您的数据更容易产生洞见和实现价值
您有大量的数据,数据的存储和管理消耗您大量的成本,您知道这些数据隐藏着巨大的价值,但是您总觉得还没有把数据的价值变现出来,对吗?来吧,我们用一系列的案例帮您轻松落地AI模型服务,实现数据价值的变现......
254 3
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
343 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
52 2

相关产品

  • 日志服务