通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析-阿里云开发者社区

开发者社区> 祎休> 正文

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

简介: 通过DataWorks归档日志服务数据至MaxCompute
+关注继续查看

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档:https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

image

创建数据源:

步骤1      进入数据集成,点击作业数据源,进入Tab页面。

image

步骤2      点击右上角
新增数据源,选择消息队列 loghub。

image
image

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub
Endpoint、Project、AK信息等,并点击 测试连通性。

image

创建目标表:

步骤1      在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

image

步骤2      编写建表DDL。
步骤3      点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4      直到日志打印成本,表示三条DDL语句执行完毕。

image

步骤5      可以通过desc 查看创建的表。

image

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1      点击
新建业务流程 并 确认提交,名称为 直播日志采集。

image

步骤2      在业务流程开发面板中依次创建如下依赖并命名。

image

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3      双击
web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

image
image

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系统前10分钟到
endTime=$[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4      可以点击高级运行进行测试。

image

可以分别手工收入自定义参数值进行测试。

image

步骤3      使用SQL脚本确认是否数据已经写进来。如下图所示:

image

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。
比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:
image

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

欢迎入群进行产品资料获取以及获取帮助:
image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
通过搭建wordpress博客来学习云服务器的详细使用方法
云服务器越来越普及,很多企业及个人都纷纷上云,从传统的虚拟主机或者托管服务器上把网站和应用迁移到腾讯云、阿里云、百度云等这些云服务器上。 云服务器相比传统服务器的优势有很多,比如安全性、性价比、稳定性、可用性、便捷性等等各方面,大家可以百度自己了解,我就不在这里多说了。
1820 0
51.com开放平台日志
【51开放平台日志 2008年12月05日】第三方小应用可以直接使用Flash访问51用户照片文件 出自51.com developers wiki 跳转到: 导航, 搜索 因为Flash的跨域读取文件限制策略,导致之前第三方小应用无法实现Flash跨域读取51用户照片。
481 0
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
4843 0
功能大图之集成:如何将业务系统的数据抽取汇聚到数据中台
本文将介绍Dataphin的集成功能模块在产品大图中的定位,系统地介绍了集成的能力以及集成场景的关注要点。
88 0
日志服务数据加工培训直播资料汇总: 扫平日志分析路上障碍, 实时海量日志加工实践
日志服务数据加工系列培训资料汇总: 扫平日志分析路上障碍, 实时海量日志加工实践
1321 0
MaxCompute在电商场景中如何进行漏斗模型分析
本文以某电商案例为例,通过案例为您介绍如何使用离线计算并制作漏斗图。
3411 0
+关注
祎休
阿里云MaxCompute产品经理,帮助每一个想使用大数据计算服务的同学轻松上云。
41
文章
0
问答
来源圈子
更多
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载