导入MaxCompute数据到日志服务实战-阿里云开发者社区

导入MaxCompute数据到日志服务实战

2020-04-19 1418

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

云备份 Cloud Backup，100GB 3个月

文件存储 NAS，50GB 3个月

简介： 日志服务支持将MaxCompute 中的数据导入到日志服务，利用日志服务的查询和可视化功能，对数据进行分析和可视化展示，使用数据加工对数据进一步处理，充分发掘数据的价值

简介

日志服务（Log Service，简称 SLS）是针对日志类数据的一站式服务，在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能，提升运维、运营效率，建立 DT 时代海量日志处理能力。
将MaxCompute 中的数据导入到日志服务，利用日志服务的查询和可视化功能，对数据进行分析和可视化展示，使用数据加工对数据进一步处理，充分发掘数据的价值。

未命名绘图.jpg

日志服务提供的数据导入功能，支持从OSS，MaxCompute，Kafka等数据源同步数据。使用数据导入同步数据具备如下的优势：

配置简单，用户仅需在日志服务控制台完成简单配置即可实现导入。
导入服务完全由日志服务托管，无需运维。
支持动态水平扩展，根据用户的数据量自动分配资源，实现快速导入。

日志服务基本概念

日志：日志服务中处理的最小数据单元，每行日志包含日志发生时间和一组key-value 均为字符串格式的字段列表。
项目（Project）：日志服务中的资源管理单元，用于资源隔离和控制，管理着用户的所有日志库等资源。
日志库（Logstore）：日志数据的采集、存储和查询单元。每个日志库属于一个项目，且每个项目可以创建多个日志库。

MaxCompute 介绍

大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案。

MaxCompute 基本概念

项目（Project）：类似于传统数据库的Database的概念，是进行多用户隔离和访问控制的主要边界。
表（Table）：表是MaxCompute的数据存储单元，是由行和列组成的二维结构，每行代表一条记录，每列表示相同数据类型的一个字段，一条记录可以包含一个或多个列。

导入步骤

环境准备

准备需要导入的MaxCompute Project和Table，以及能够访问该Table的Access Key。
已经开通日志服务，并且已经创建好Project，Logstore和索引。

源数据预览

假设用户数据存储在 access_log 这个表里，其字段包括了String，Int，Double等类型。

配置导入任务

1 进入日志服务控制台首页，接入数据选择 MaxCompute 数据源

2 选择导入目标Project和Logstore
如果还没有创建Project和Logstore，可以从右侧立即创建入口创建。需要确认导入任务开始之前目标Logstore已经配置了合适的索引。

3 配置访问MaxCompute必需的信息，支持预览数据

参数说明

参数	说明
配置名称	导入配置的名称。
MaxCompute项目	待导入数据所在的MaxCompute项目名称。
Table	待导入数据所在的表名称。
分区描述	如果待导入的表是分区表，需要指定分许描述。分区参考 https://help.aliyun.com/document_detail/27820.html
AccessKey ID	访问MaxCompute的AccessKey ID。
AccessKey Secret	访问MaxCompute的AccessKey Secret。
Endpoint	访问MaxCompute的Endpoint。Endpoint配置可以参考文档：https://help.aliyun.com/document_detail/34951.html
Tunnel Endpoint	访问MaxCompute的Tunnel Endpoint。

3 配置时间解析方式
默认使用系统时间时间作为数据时间，用户也可以使用MaxCompute 表中的字段作为数据的时间

4 配置调度间隔

日式服务根据配置的导入间隔定时执行增量导入任务。

导入结果预览

MaxCompute表中的每行数据自动转化为一行日志数据。每列作为日志中的一个字段，列名作为日志的字段名称。各个字段类型映射为日志类型的规则如下：

MaxCompute类型	日志字段类型
Map,Array,Struct	JSON string
其他类型	String

导入任务管理

创建导入任务后，日志服务自动创建用于存放导入任务诊断日志的Logstore（internal-diagnostic_log）和统计报表。导入异常时可以在诊断Logstore中查看异常原因。

更多资源

MaxCompute介绍：https://help.aliyun.com/document_detail/27800.html
日志服务介绍：https://help.aliyun.com/document_detail/48869.html
MaxCompute导入使用文档：https://help.aliyun.com/document_detail/153354.html

联系我们

如有任何问题也可以钉钉扫码进群联系我们或者关注我们的微信公众号：

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

导入MaxCompute数据到日志服务实战

简介

日志服务基本概念

MaxCompute 介绍

MaxCompute 基本概念

导入步骤

环境准备

源数据预览

配置导入任务

导入结果预览

导入任务管理

更多资源

联系我们

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景