日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
本文描述不做特殊说明,默认都是使用RAM账户登录控制台。更多创建或获取RAM用户信息操作,请参见准备RAM用户。
步骤一 创建RAM角色
如果使用默认角色,可以跳过这一步。
登录RAM控制台。
在左侧导航栏,选择身份管理 > 角色。
在角色页面,单击创建角色。
在创建角色面板,选择可信实体类型为阿里云服务,然后单击下一步。
在配置角色配置向导中,配置如下内容,然后单击完成。
参数
说明
角色类型
选择普通角色类型。
角色名称
输入角色名称,例如aliyunlogreadrole。
备注
输入创建角色的备注信息。
选择受信服务
选择日志服务。
步骤二 授予RAM角色读取Logstore数据的权限
如果使用默认角色AliyunLogDefaultRole,可以跳过这一步。
如果使用自定义创建RAM角色,该RAM角色此时无任何权限。您需要为该RAM角色授予系统策略或自定义策略,参考如下。
在角色页面,单击目标RAM角色操作列的添加权限。
在添加权限页面,选中目标权限(例如AliyunLogFullAccess)。
选择授权应用范围。
整个云账号:权限在当前阿里云账号内生效(推荐)。
指定资源组:权限在指定的资源组内生效。
输入授权主体。
授权主体即需要授权的RAM角色名称,系统会自动填入当前的RAM角色。
选择AliyunLogFullAccess权限策略(AliyunLogFullAccess为管理日志服务的权限)。
确认授权结果,单击完成。
步骤三 修改RAM角色信任策略
信任策略是来告知MaxCompute服务和SLS服务可以信任该目标角色。
单击目标角色名称。
单击信任策略管理并修改其内容,添加"dataworks.aliyuncs.com"为授信服务。
{ "Statement": [ { "Action": "sts:AssumeRole", "Effect": "Allow", "Principal": { "Service": [ "log.aliyuncs.com", "dataworks.aliyuncs.com" ] } } ], "Version": "1" }
步骤四 创建MaxCompute项目
如果已有MaxCompute项目,可以跳过这一步。
阿里云账号或RAM用户已开通DataWorks服务和MaxCompute服务,且位于同一地域。
如果您需要以RAM用户身份创建MaxCompute项目,请确认已获取RAM用户账号并已授予AliyunDataWorksFullAccess权限。更多信息,请参见准备RAM用户。
使用RAM用户登录DataWorks控制台。
在左侧导航栏,单击工作空间列表,并切换至相应的地域后,单击创建工作空间。
创建工作空间完成后也会一并创建好MaxCompute项目。
在创建工作空间对话框,配置各项参数,单击下一步。
更多信息,请参见创建工作空间中的第3步。
进入选择引擎页面,这里暂时选择计算引擎服务为MaxCompute,单击下一步。
更多信息,请参见创建工作空间中的第4步。
进入引擎详情页面,配置各项参数后,单击创建工作空间。
更多信息,请参见创建工作空间中的第5步。
配置完成后,单击左侧导航栏MaxCompute,查看所创建的MaxCompute项目。
步骤五 创建MaxCompute表
如果已有MaxCompute表,可以跳过这一步。
进入DataWorks控制台的工作空间列表页面,单击目标工作空间操作列的数据开发。
单击左侧数据开发> 鼠标悬停至+新建图标,单击新建业务流程。
在新建业务流程对话框中,输入业务名称。
将鼠标悬停至+新建图标,单击MaxCompute > ODPS SQL。
在新建节点对话框中,设置对应节点的类型、路径、名称。
输入SQL语句,单击运行,即可进行表的创建。
选择表管理->其它,双击已创建的目标表即可进入表管理页面。
在表管理页面中基本属性的中文名行,输入自定义别名,然后单击提交到生产环境。
步骤六 将RAM角色添加到MaxCompute中
登录DataWorks控制台。
单击左侧导航栏MaxCompute。
在MaxCompute项目管理页,单击目标项目操作列成员管理。
在成员管理页面,单击右上方的添加成员。
在添加成员对话框中,单击刷新,即可展示已创建的RAM角色。
在待添加账号处勾选需要添加的当前登录账号、自定义角色账号如demo,单击>,将其移动至已添加的账号中。
说明若多次刷新后,仍不能显示目标RAM角色,请参见步骤三 修改角色信任策略,检查权限策略是设置正确。
选中需要授予的角色,单击确定。
添加完成后,您可以在工作空间中列表中查看或修改已有的成员和对应角色,也可以从工作空间中删除非项目所有者角色的RAM用户。工作空间中成员对应角色更多信息请参见添加工作空间成员和角色中的第7步。
步骤七 授予RAM角色写数据到MaxCompute的权限
单击目标工作空间操作列的数据开发。
单击右上方的图标,进入工作空间配置页面。
在左侧导航栏,单击MaxCompute高级配置,在MaxCompute 项目选择选项卡中选择生产环境下项目名称。
单击自定义用户角色,进行MaxCompute生产项目授权。
更多关于MaxCompute项目角色的信息,请参见添加工作空间成员和角色中的第7步。
在角色名称为admin的操作列,单击成员管理后,在待添加账号处勾选当前操作账号(注意必须是当前操作账号)、目标RAM角色账号,单击>,将其移动至已添加的账号中并点击确定。
授予角色查看、修改、更新目标MaxCompute表的权限。
在角色名称为role_project_admin的操作列,单击成员管理,在待添加账号处勾选当前登录账号、目标RAM角色账号,单击>,将其移动至已添加的账号中并点击确定。
在角色名称为role_project_admin的操作列,单击权限管理,单击角色授权弹窗框中,单击表 > 添加表,添加已创建的MaxCompute表,然后选中Describe、Alter、Update。
步骤八 创建投递MaxCompute作业
已创建Project和Logstore。具体操作,请参见创建Project和Logstore。
已采集日志。具体操作,请参见数据采集。
已在MaxCompute中创建表。具体操作,请参见步骤五 创建MaxCompute项目表。
登录日志服务控制台。
在Project列表区域,单击目标Project。
在日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出> MaxCompute(原ODPS)。
将鼠标悬浮在MaxCompute(原ODPS)上,单击+。
在MaxCompute投递功能面板中,配置如下参数,然后单击确定。
选择投递版本为新版(推荐),重要参数配置说明如下所示。
参数
说明
投递名称
投递作业的名称。
投递区域
目标MaxCompute表所在地域。
MaxCompute Endpoint
MaxCompute地域对应的Endpoint,可以向MaxCompute发出除数据上传、下载外的所有请求。
Tunnel Endpoint
MaxCompute地域对应的Tunnel Endpoint,有上传、下载数据的能力。
项目名
目标MaxCompute表所在的MaxCompute项目。
MaxCompute表名
目标MaxCompute表名称。
读日志服务授权
授予MaxCompute投递作业读取Logstore数据的权限,您可使用已完成授权的默认角色或自定义角色。
写入授权方式
您可以通过RAM用户的AccessKey或RAM角色,完成写MaxCompute的授权。
写MaxCompute授权
授予MaxCompute投递作业将数据写到MaxCompute表中的权限,您可使用已完成授权的默认角色或自定义角色。
MaxCompute普通列
左边输入框中填写与MaxCompute表列相映射的日志字段名称,右边为MaxCompute表的列名称。
说明不允许使用同名字段。
MaxCompute分区列
左边输入框中填写与MaxCompute表分区列相映射的日志字段名称,右边为MaxCompute表分区列名称。
说明分区字段不支持extract_others、extract_others_all。
时间分区格式
时间分区格式。
时区选择
该时区用于格式化时间以及时间分区。
投递模式
支持实时投递和批投递。
实时投递:即时读取Logstore中的数据,并投递到MaxCompute。
批投递:读取Logstore中早于当前时间5分钟~10分钟之间的数据,并投递到MaxCompute中。
开始时间范围
投递作业从该时间开始拉取Logstore中的数据。
创建完成后,您可以单击MaxCompute作业,查看数据写入状态。
步骤九 开通作业运行日志
开通作业运行日志后,您可以在指定Project下的internal-diagnostic_log Logstore中查看MaxCompute投递作业的运行日志与错误日志,其日志主题(__topic__)为etl_metrics。
您也可以通过投递作业名称查询目标投递作业的运行日志与错误日志,对应的查询语句为"job_name:作业名称",例如job_name:job-1646****946。
统计图表中的运行异常图表依赖投递作业运行日志,因此在查看统计报表前,您需先开通作业运行日志。
登录日志服务控制台。
在Project列表区域,单击目标Project。
该Project为MaxCompute投递作业所在的Project。
在页面左上方,单击图标。
进入开通作业运行日志页面。
如果您开未通过该Project的详细日志,则在服务日志页签中,单击开通服务日志。
如果您已开通过该Project的详细日志,则在服务日志页签中,单击图标。
设置参数,然后单击确定。
参数
说明
作业运行日志
打开作业运行日志开关后,系统将在您指定的Project中自动创建一个名为internal-diagnostic_log的Logstore,用于存储Scheduled SQL、MaxCompute投递、OSS投递、数据导入等作业的运行日志与错误日志。
日志存储位置
开通作业运行日志功能后,需要选择日志的存储位置,即需要指定Project。可以设置为:
自动创建(推荐)。
当前Project。
同一地域下的其他Project。
步骤十 通过管理排查错误
登录日志服务控制台。
在Project列表区域,单击目标Project。
在日志存储 > 日志库页签中,单击目标Logstore左侧的>,选择数据处理 > 导出> MaxCompute(原ODPS)。
单击目标作业,进入任务管理页面。
通过管理页面运行异常表可及时排查错误,且单击展开,可查看详细错误信息。
总结
通过上面的步骤,就可以完成投递数据到MaxCompute。如果有更多问题,可以参考如下官方文档。
投递相关限制,请参见稳定性说明与使用限制。
投递过程中的常见问题,请参见MaxCompute投递作业(新版)常见报错与问题。