日志数据投递到MaxCompute最佳实践

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。

背景

日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。

投递流程

温馨提示本文描述不做特殊说明,默认都是使用RAM账户登陆控制台。更多创建或获取RAM用户信息操作,请参见准备RAM用户

一、创建角色

温馨提示:如果使用默认角色,可以跳过这一步。

1.登录RAM控制台

2.在左侧导航栏,选择身份管理 > 角色

3.在角色页面,单击创建角色

image.png

4.在创建角色面板,选择可信实体类型为阿里云服务,然后单击下一步

image.png

5.在配置角色配置向导中,配置如下内容,然后单击完成

参数

说明

角色类型

选择普通角色类型

角色名称

输入角色名称,例如aliyunlogreadrole。

备注

输入创建角色的备注信息。

选择受信服务

选择日志服务

image.png

二、授予角色日志服务读权限

温馨提示:

1.如果使用默认角色AliyunLogDefaultRole,可以跳过这一步。

2.如果使用自定义创建RAM角色,该RAM角色此时无任何权限。您需要为该RAM角色授予系统策略或自定义策略,参考如下。

1.在角色页面,单击目标RAM角色操作列的添加权限

image.png

2.在添加权限页面,选中目标权限(如AliyunLogFullAccess)。

  • 选择授权应用范围。
  • 整个云账号:权限在当前阿里云账号内生效(推荐)。
  • 指定资源组:权限在指定的资源组内生效。
  • 输入授权主体。授权主体即需要授权的RAM角色名称,系统会自动填入当前的RAM角色。
  • 选择AliyunLogFullAccess权限策略(AliyunLogFullAccess为管理日志服务的权限)。

image.png

3.确认授权结果,单击完成

三、修改角色信任策略

说明:信任策略是来告知MaxCompute服务和sls服务可以信任该目标角色。

1.单击目标角色名称。

2.单击信任策略管理并修改其内容,添加"dataworks.aliyuncs.com"为授信服务如下。

{
  "Statement": [
    {
      "Action": "sts:AssumeRole",
      "Effect": "Allow",
      "Principal": {
        "Service": [
          "log.aliyuncs.com",
          "dataworks.aliyuncs.com"
        ]
      }
    }
  ],
  "Version": "1"
}

image.png

image.png

四、通过Dataworks控制台创建工作空间并绑定MaxCompute引擎

前提条件:

  • 阿里云账号或RAM用户已开通DataWorks服务MaxCompute服务,且位于同一地域。
  • RAM用户通过DataWorks平台管理MaxCompute项目,请确认已获取RAM账户并已为RAM账户授予AliyunDataWorksFullAccess权限。更多创建或获取RAM用户信息操作,请参见准备RAM用户

1.使用RAM账户登录DataWorks控制台

2.创建工作空间,创建工作空间完成后也会一并创建好MaxCompute项目。

  • 在左侧导航栏,单击工作空间列表,并切换至相应的地域后,单击创建工作空间

image.png

  • 创建工作空间对话框,配置选项参数,单击提交。更多信息请参见创建工作空间

image.png

  • 绑定计算引擎,注意:需要为工作空间绑定计算引擎,才可进行数据开发工作。更多绑定方式请参考为工作空间绑定引擎

image.png

  • 进入绑定MaxCompute页面,配置各项参数后,单击完成绑定。

image.png

  • 配置完成后,单击左侧导航栏MaxCompute即可跳转至Maxcompute控制台项目管理页面看到所创建的Maxcompute项目。 image.png

image.png

五、通过Dataworks控制台创建MaxCompute表

温馨提示:如果已有MaxCompute表,可以跳过这一步。

1.进入DataWorks控制台工作空间列表页面,鼠标悬停至目标工作空间对应操作列的快速进入,单击数据开发。

        image.png

2.单击左侧数据开发> 鼠标悬停至+新建图标,单击新建业务流程,弹窗内输入业务名称,然后单击新建

image.png

image.png

3.鼠标悬停至+新建图标,单击新建节点 > MaxCompute > ODPS SQL,弹窗内输入对应的节点类型路径名称

image.png

image.png

4.新建完节点后,即会跳出sql页面,输入sql语句单击运行即可进行表的创建。

image.png

5.单击左侧表管理->其它,双击已创建的目标表即可进入表管理页面。

6.表管理页面中基本属性的中文名行输入自定义别名,然后单击提交到生产环境。

image.png

image.png

六、通过MaxCompute控制台添加用户

1.进入DataWorks控制台工作空间列表页面,单击目标工作空间对应的管理进入工作空间管理中心。

image.png

2.在左侧导航栏,单击 image.png 后在请选择工作空间中选择标准模式名称,点击计算引擎信息 > MaxCompute > 进入MaxCompute管理控制台

image.png

3.跳转至MaxCompute项目管理页面 > 角色权限,若出现如下图错误提示,解决方法请参考下方第4步。更多信息请参见MaxCompute项目管理(新版)

image.png

4.在阿里云主账号下将当前登录的RAM账添加至MaxCompute项目,在角色名称为admin的操作列,单击成员管理后,在左侧搜索账号处勾选当前登录账号(注意必须是当前登录账号),单击 >,将其移动至右侧待添加账号中并点击确定

image.png

七、授予角色MaxCompute写权限

方式一、一键式授权(推荐)请直接跳至第八步创建MaxCompute投递任务并在投递配置页面完成该授权。

方式二、通过MaxCompute控制台授予角色查看、修改、更新目标MaxCompute表的权限

  1. 在角色名称为role_project_admin的操作列,单击成员管理,在左侧搜索账号处勾选当前登录账号、目标RAM角色账号,单击>,将其移动至右侧待添加账号中后点击确定

image.png

  1. 在角色名称为role_project_admin的操作列,单击编辑角色,在角色授权弹窗框中,单击Table -> 输入框内选择已创建的MaxCompute表 -> 选择DescribeAlterUpdate -> 确定

image.png

八、创建MaxCompute投递任务

前提条件:

  1. 创建Project和Logstore。具体操作,请请参见创建Project和Logstore
  2. 已采集日志。具体操作,请参见数据采集
  3. 已在MaxCompute中创建表。具体操作,请参见上述第五步创建MaxCompute项目表

1.登录日志服务控制台

2.在Project列表区域,单击目标Project。

3.开始创建投递任务。

  • 日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出> MaxCompute(原ODPS)。
  • 将鼠标悬浮在MaxCompute(原ODPS)上,单击+

image.png

  • MaxCompute投递功能面板中,配置如下参数,然后单击确定

选择投递版本新版(推荐),重要参数配置说明如下所示。

参数

说明

投递名称

投递任务的名称。

投递区域

目标MaxCompute表所在地域。

MaxCompute Endpoint

MaxCompute地域对应的Endpoint,可以向MaxCompute发出除数据上传、下载外的所有请求。

Tunnel Endpoint

MaxCompute地域对应的Tunnel Endpoint,有上传、下载数据的能力。

项目名

目标MaxCompute表所在的MaxCompute项目。

MaxCompute表名

目标MaxCompute表名称。

读日志服务授权

授予MaxCompute投递作业读取Logstore数据的权限,您可使用已完成授权的默认角色或自定义角色。

写入授权方式

您可以通过RAM用户的AccessKey或RAM角色,完成写MaxCompute的授权。

写MaxCompute授权

授予MaxCompute投递作业将数据写到MaxCompute表中的权限,您可使用已完成授权的默认角色或自定义角色。

MaxCompute普通列

左边输入框中填写与MaxCompute表列相映射的日志字段名称,右边为MaxCompute表的列名称。

说明:不允许使用同名字段。

点击自动授权

授予角色写入MaxCompute权限。

说明:1.需要有权限的账户进行操作。

2.该自动授权操作可能会失败。如果授权失败会提示如下三条操作命令:

USE xxxxx;
ADD USER RAM$xxxxx:`role/xxxxx`;
GRANT Describe, Alter, update ON TABLE xxxxx TO USER RAM$xxxxx:`role/xxxxx`;

请复制为您提示的三条操作命令到MaxCompute控制台手动完成授权,详细步骤请参考通过命令行完成授权

MaxCompute分区列

左边输入框中填写与MaxCompute表分区列相映射的日志字段名称,右边为MaxCompute表分区列名称。

说明:分区字段不支持extract_othersextract_others_all

时间分区格式

时间分区格式。

时区选择

该时区用于格式化时间以及时间分区。

投递模式

支持实时投递和批投递。

  • 实时投递:即时读取Logstore中的数据,并投递到MaxCompute。
  • 批投递:读取Logstore中早于当前时间5分钟~10分钟之间的数据,并投递到MaxCompute中。

开始时间范围

投递作业从该时间开始拉取Logstore中的数据。

image.png

image.png

  • 单击MaxCompute任务页面即可查看数据写入状态,如下参考图。

image.png

九、通过管理页面排查错误

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出> MaxCompute(原ODPS)。
  4. 单击目标任务进入任务管理页面,如果页面没有显示内容,请通过步骤10开通投递日志。

image.png

5.通过管理页面运行异常表可及时排查错误如下图点击信息列展开字样即可看到详细错误信息。

image.png

十、开通运行日志

说明:

开通作业运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看MaxCompute投递作业的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。您也可以通过投递作业名称查询目标投递作业的运行日志与错误日志,对应的查询语句为job_name:作业名称,例如job_name:job-1646****946

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。该Project为MaxCompute投递作业所在的Project。
  3. 在页面左上方,单击 image.png 图标。

image.png

  1. 进入开通作业运行日志页面。
  • 如果您开未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志
  • 如果您已开通过该Project的详细日志,则在服务日志页签中,单击 image.png 图标。

image.png

image.png

5.设置参数如下,然后单击确定。

参数

说明

作业运行日志

打开作业运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储Scheduled SQL、MaxCompute投递、OSS投递、数据导入等作业的运行日志与错误日志。

日志存储位置

开通作业运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:

  • 自动创建(推荐)。
  • 当前Project。
  • 同一地域下的其他Project。

image.png

投递限制与常见问题

1.投递限制相关,具体请参见稳定性说明与使用限制

2.投递过程中常见问题,具体请参见MaxCompute投递作业(新版)常见报错与问题

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
435 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
59 2
|
17天前
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。
|
2月前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
160 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
94 4
|
16天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
70 0
|
2月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
27 4
|
2月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
66 3
|
2月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
85 2
|
2月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
168 2

相关产品

  • 日志服务