通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 通过DataWorks归档日志服务数据至MaxCompute

通过DataWorks归档日志服务数据至MaxCompute

但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

image

创建数据源:

步骤1      进入数据集成,点击作业数据源,进入Tab页面。

image

步骤2      点击右上角
新增数据源,选择消息队列 loghub。

image
image

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub
Endpoint、Project、AK信息等,并点击 测试连通性。

image

创建目标表:

步骤1      在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

image

步骤2      编写建表DDL。
步骤3      点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4      直到日志打印成本,表示三条DDL语句执行完毕。

image

步骤5      可以通过desc 查看创建的表。

image

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1      点击
新建业务流程 并 确认提交,名称为 直播日志采集。

image

步骤2      在业务流程开发面板中依次创建如下依赖并命名。

image

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3      双击
web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

image
image

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系统前10分钟到
endTime=$[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4      可以点击高级运行进行测试。

image

可以分别手工收入自定义参数值进行测试。

image

步骤3      使用SQL脚本确认是否数据已经写进来。如下图所示:

image

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。
比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:
image

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

欢迎入群进行产品资料获取以及获取帮助:
image

目录
相关文章
|
14天前
|
存储 SQL 监控
|
14天前
|
运维 监控 安全
|
17天前
|
监控 关系型数据库 MySQL
分析慢查询日志
【10月更文挑战第29天】分析慢查询日志
35 3
|
17天前
|
监控 关系型数据库 数据库
怎样分析慢查询日志?
【10月更文挑战第29天】怎样分析慢查询日志?
32 2
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
93 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
90 3
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
111 1
|
2月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
70 7
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成任务日志中显示wait,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

相关产品

  • 云原生大数据计算服务 MaxCompute