如何使用DataWorks--HoloStudio联合查询实时(Blink)、离线(MaxCompute)数据。

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 交互式分析与大数据生态无缝打通,不仅能实时查询离线数据以及实时数据,还能对离线数据、实时数据做联合查询,用一套SQL语言,在一套系统里面就能根据业务需求完成开发,无数据的冗余存储业务导入导出操作,在降低成本和运维的同时,也为开发降低难度。

离线大数据场景主要基于MaxCompute进行批量数据分析,实时数据场景主要是依靠实时计算做初步的数据清洗再对接数据库来完成数据的实时分析需求。但随着业务精细化运营的加深以及大促的常态化,单一的数据场景并不能满足业务的需求,而实时离线联合使用的场景诉求变得越来越多。例如双11大促当天快结束时,某手机店铺需要冲击一下销量,运营通过对实时数据分析发现当前店铺的加购率高但是转化不行,为了提高转化率,想针对部分人群发放一些优惠券或者红包来促进转化,但加购的实时人群数量庞大,如何选取最精准的人群成为一大难题。这时,运营调用历史购买数据即离线数据,通过对实时数据和离线数据在某个条件下的聚合查询对用户进行分层,最后筛选出最精准的人群来进行优惠券发放。
交互式分析与大数据生态无缝打通,在离线数据场景上,与MaxCompute在底层打通,支持直接查询/导入查询MaxCompute数据;在实时数据场景上,提供connect接口,支持实时计算(Blink)数据实时查询实时写入,只需要维护一套系统,就能实现实时离线的交互式查询。今天小编就为大家介绍,如何使用交互式分析来同时完成实时离线联合查询。

本次案例基于交互式分析的开发平台HoloStudio完成,关于HoloStudio的使用可以请参见往期传送门:
HoloStudio介绍:《交互式分析六脉神剑》之Dataworks-HoloStudio初体验

HoloStudio直接查询MaxCompute:在吗?0代码加速查询MaxCompute请查收!

HoloStudio查询实时计算:学会这个,实时数据(Blink)实时查询实时写入!

开发平台

实时计算平台
DataWorks--HoloStudio

前提条件

1.开通实时计算服务
2.开通MaxCompute服务
3.开通[交互式分析服务]。
4.确保以上3个服务在同一个region。

操作步骤

1.准备MaxCompute离线数据

登录DataWorks,新建业务流程--数据开发--ODPS SQL,输入MaxCompute作业信息
image.png
在MaxCompute中准备一张用户的离线数据表,主要用来存放以前用户的购买记录,本案例的示例数据如下:
image.png

2.准备实时数据

登录实时计算平台,新建作业,写入实时作业,对数据做初步的清洗,并引用资源包完成交互式分析与实时计算的连接。
image.png
作业检无误后提交,在生产环境启动该作业,最终作业输出如下:(数据最终存储在交互式分析里)
image.png

3.交互式分析联合查询数据

登录HoloStudio,在SQL Console里面执行临时查询,查询经过实时计算初步清洗的部分实时数据如下:(
image.png
HoloStudio新建外部表,查询的MaxCompute部分离线数据如下:(数据仍然存储在MaxCompute中)
image.png
现将实时数据与离线数据按照某个条件做聚合,例如查询过去1-2年购买过且当前加购金额超过8000元的用户。

SELECT a_id, sum(a_cost) as total from
    (select user_id as a_id, cost as a_cost from holo_demo where salltime >='20171101' and salltime <= '20181101') hdm
     join (SELECT user_id as b_id, cost as b_cost FROM blink_demo where cost >'8000' ) bdm on hdm.a_id = bdm.b_id
group by a_id;

join后的部分结果示例如下:
image.png
即可通过join后的id筛选出精准人群,来进行优惠券/红包投放。

本案例只是做简单的示例,具体的场景请根据业务需求进行数据聚合。

交互式分析与大数据生态无缝打通,不仅能实时查询离线数据以及实时数据,还能对离线数据、实时数据做联合查询,用一套SQL语言,在一套系统里面就能根据业务需求完成开发,无数据的冗余存储业务导入导出操作,在降低成本和运维的同时,也为开发降低难度。既然交互式分析功能这么强大,赶紧用起来把
如果大家在使用过程中有任何疑问,欢迎进钉钉群询问。
image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
283 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
189 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
176 0
|
5月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
327 3
|
5月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
3月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
156 14
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
149 1
|
3月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
240 1
|
5月前
|
SQL 人工智能 分布式计算
在数据浪潮中前行:我与ODPS的实践、思考与展望
在数据驱动决策的时代,企业如何高效处理海量数据成为数字化转型关键。本文结合作者实践,深入解析阿里云自研大数据平台 ODPS 的技术优势与应用场景,涵盖 MaxCompute、DataWorks、Hologres 等核心产品,分享从数据治理到实时分析的落地经验,并展望其在 AI 与向量数据时代的发展前景。
243 70