使用dataworks投递日志服务数据到MaxCompute

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 日志服务提供了多种投递数据的方式,如: 在控制台直接配置投递任务,通过消费组获取数据然后再投递。控制台直接投递配置方式与dataworks类似,不过配置项更少,更容易操作。

背景

本文将为您介绍如何通过数据集成(DataWorks)功能投递LogHub(SLS)数据至MaxCompute。

前提条件

总览

  1. 首先,需要确定日志服务中存在可供投递的数据;
  2. 然后,在DataWorks控制台中创建工作空间,以及日志服务的数据源、MaxComputer的数据源、MaxCompute的目标表;
  3. 最后,创建投递任务。

投递流程

一、通过Dataworks控制台创建MaxCompute表

温馨提示:如果已有MaxCompute表,可以跳过这一步。

1.进入DataWorks控制台工作空间列表页面,鼠标悬停至目标工作空间对应操作列的快速进入,单击数据开发。

        image.png

2.单击左侧数据开发 > 鼠标悬停至+新建图标,单击新建业务流程,弹窗内输入业务名称,然后单击新建即可完成业务流程的创建。

image.png

image.png

3.鼠标悬停至+新建图标,单击新建节点 > MaxCompute > ODPS SQL,弹窗内输入对应的节点类型路径名称,然后单击提交完成新建节点。

image.png

image.png

4.新建节点完成后,即会跳出sql页面,输入sql语句单击运行即可进行表的创建。

CREATE TABLE IF NOT EXISTS tableName
(
  c1  STRING,
  c2  STRING
)
PARTITIONED BY
(
  p1  STRING
)
LIFECYCLE 3;

image.png

二、创建数据源

1. 登录DataWorks控制台
2. 单击左侧导航栏的工作空间列表,单击目标工作空间操作列对应的管理,进入工作空间管理中心。        
image.png
3. 在管理中心页面单击左侧数据源,待数据源页面加载完毕后,单击新增数据源。

image.png

3.1.创建LogHub数据源。

a.在新增数据源弹框中选择LogHub。


    image.png

b.填写新增LogHub数据源对话框中的配置。  

    image.png  


参数

描述

数据源名称

数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。

数据源描述

对数据源进行简单描述,不得超过80个字符。

LogHub Endpoint

LogHub的Endpoint,格式为http://example.com。详情请参见服务入口

Project

目标日志服务的项目名称。

AccessKey ID

访问密钥中的AccessKey ID,您可以进入控制台的用户信息管理页面进行复制。

AccessKey Secret

访问密钥中的AccessKey Secret,相当于登录密码。

  c.单击测试连通性

  d.连通性测试通过后,单击完成

3.2.创建MaxCompute数据源。⚠️注意:如果已绑定MaxCompute引擎,默认会已创建好一个名为odps_first的数据源,可以跳过此步骤。

a.在新增数据源弹框中选择MaxCompute。

image.png

b.填写新增MaxCompute数据源对话框中的配置。

      image.png

参数

描述

数据源名称

数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。

数据源描述

对数据源进行简单描述,不得超过80个字符。

ODPS Endpoint

MaxCompute的Endpoint,格式为http://example.com。详情请参见服务入口

ODPS项目名称

MaxCompute项目名称。

AccessKey ID

访问密钥中的AccessKey ID,您可以进入控制台的用户信息管理页面进行复制。

AccessKey Secret

访问密钥中的AccessKey Secret,相当于登录密码。

三、离线同步方式(如需实时同步,请参考第四步骤)

  1. 数据源页面,单击左上角的图标,选择全部产品 > DataStudio(数据开发)进入数据开发页面。


image.png

image.png    

  1. 数据开发页面,鼠标悬停至新建图标,单击业务流程


      image.png

  1. 新建业务流程对话框中,输入业务流程名称描述,单击新建
  2. 展开已创建的目标业务流程,右键单击数据集成,选择新建 > 离线同步

      image.png

  1. 新建节点对话框中,选择业务流程路径,并输入节点名称

      image.png

  1. 单击确认,进入离线节点编辑页面,如下图:

      image.png

  1. 参考下图进行配置并测试连通性。

      image.png

  1. 测试连通性为可连通后单击下一步
  2. 任务配置字段映射参考下图示例。

      image.png

image.png

image.png

 10.单击保存 > 运行 > 运行,即可开启任务投递。

      image.png

image.png

 11.可以在控制台下方区域查看运行的日志。

      image.png

四、实时同步方式(如需离线同步,请参考第三步骤)

  1. 数据源页面,单击左上角的图标,选择全部产品 > DataStudio(数据开发)进入数据开发页面。

      image.png

image.png

  1. 数据开发页面,鼠标悬停至新建图标,单击业务流程

      image.png

  1. 新建业务流程对话框中,输入业务流程名称描述,单击新建
  2. 展开已创建的目标业务流程,右键单击数据集成,选择新建 > 实时同步

      image.png

  1. 新建节点对话框中,选择业务流程路径,并输入节点名称,然后单击确定完成业务流程的创建。

      image.png

  1. 单击确认后,则会进入实时节点编辑页面,如下图:

      image.png

  1. 输入选项中LogHub输出选项中MaxCompute分别拖拽至实时节点编辑页面。

      image.png

  1. 单击Loghub后会弹出Loghub节点配置弹窗请参考下图进行配置。

      image.png

  1. 单击MaxCompute后会弹出MaxCompute节点配置弹窗请参考下图进行配置。

      image.png

 10. 单击右侧边栏基本配置会弹出基本配置弹窗请参考下图进行配置。

      image.png

 11. 进行字段映射配置,先通过鼠标对LoghubMaxCompute进行连接,然后单击MaxCompute进行字段映射配置,请参考下图。

      image.png                        

image.png

image.png


12.点击保存 > 提交

image.png

13.点击提交后会弹出提示框,单击确定即可完成任务提交,此时已完成实时同步任务的基本配置。。

14.单击右侧边栏运维进入运维中心页面。

      image.png

15.单击左侧实时同步任务,即可加载出已提交的实时同步任务信息,随后请在操作列单击启动按钮则会弹出启动弹窗提示如下。

      image.png

16.在启动弹窗中根据自己需求点选相关配置后单击确定即可启动任务,并在当前页面观察任务运行状态等信息。

      image.png

五、查看MaxCompute表中数据

参考第三步骤《通过Dataworks控制台创建MaxCompute表》进入sql页面编写sql查询语句如下:

语句1查询分区:SHOW PARTITIONS tablename;

语句2以指定分区为条件查询数据:SELECT * FROM tablename WHERE p1 = '1111111';

    image.png

六、常见问题

1.投递后数据为空常见原因
  • 检查原始数据中是否存在该字段(只能投递日志服务中的字段,不支持json嵌套字段投递)
  • 日志服务的字段名称填写是否正确
  • MaxComputer侧的字段类型是否正确,日志服务中类型与MaxComputer不一样,所以建议在MaxComputer中创建String类型字段重新投递


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
24天前
|
存储 分布式计算 监控
日志数据投递到MaxCompute最佳实践
日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
130 2
|
1月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之任务工作流中遇到了日志信息显示参数值没有正确解析的问题,该如何处理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
分布式计算 资源调度 DataWorks
MaxCompute操作报错合集之出现“查询运行日志失败”的报错,一般是什么导致的
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
1月前
|
分布式计算 运维 DataWorks
DataWorks产品使用合集之如何查看数据服务API发布后的服务端日志
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
分布式计算 自然语言处理 DataWorks
MaxCompute产品使用合集之在DataWorks中,当涉及到MC的投递功能时,所指的自定义RAM角色是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
机器学习/深度学习 人工智能 DataWorks
人工智能平台PAI产品使用合集之在使用行调用时遇到一直卡在ps job的问题,并且无法在DataWorks上查看到相关日志,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
SQL DataWorks Oracle
DataWorks产品使用合集之datax解析oracle增量log日志该如何操作
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
2月前
|
存储 分布式计算 数据可视化
MaxCompute产品使用问题之任务日志可以通过什么查看
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何同步SLS日志到odps上
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之怎么删除或更新已发布部署的文件实例
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

相关产品

  • 日志服务