《交互式分析六脉神剑》之真正的秒级交互式响应

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在离线大数据场景上,MaxCompute拥有着举足轻重的地位,但使用过MaxCompute的开发者们都会发现,针对简单查询能够满足业务要求,但是随着数量增多,查询query变得复杂时,响应速度会变得特别慢,满足不了实时交互的要求。

hi,大家好,今天为大家带来《交互式分析六脉神剑》之第三剑中冲剑--秒级交互式响应。
第一剑:5分钟学会交互式分析?!
第二剑:《交互式分析六脉神剑》之HoloStudio初体验

金庸武侠中的中冲剑是指:右手中指—阳明—胃经—中冲剑,其特点:大开大阖,气势雄迈。正好对应交互式分析的核心特点之一秒级交互式响应,今天小编就为大家介绍,秒级交互式响应如何体现在具体的数据开发实践中。

在离线大数据场景上,MaxCompute拥有着举足轻重的地位,但使用过MaxCompute的开发者们都会发现,针对简单查询能够满足业务要求,但是随着数量增多,查询query变得复杂时,响应速度会变得特别慢,满足不了实时交互的要求。而众所周知,交互式分析的核心功能之一是对MaxCompute离线数据加速查询。具体的加速体现在以下两个方面:(本案例均采用HoloStudio来进行演示,关于HoloStudio的介绍可参见HoloStudio简介

简单场景

MaxCompute直接查询

针对简单查询场景,可以直接使用交互式分析进行查询,无需数据导入导出,就能实现实时查询。
示例如下:在MaxCompute中有一张小表(数据量约为1.5亿条)。
image

使用基于交互式分析的HoloStudio查询MaxCompute中的数据,只需要在HoloStudio中一键创建外部表即可。建表成功后,一键点击数据预览就能查看数据(注意:使用直接查询的方式数据仍然存储在MaxCompute中哦)
image
关于性能表现:直接查MaxCompute表中的200000条数据,用时1.7秒,真正做到秒级交互式响应。
image

MaxCompute导入查询

随着数据量的增多,大家会发现,使用交互式分析进行直接MaxCompute查询响应也会有一丢丢的吃力,这时,可以将MaxCompute中的数据导入进交互式分析进行查询。具体导入步骤可以参见用户手册:导入查询
示例采用同一张MaxCompute表数据(约1.5亿条数据),将表导入交互式分析中(数据存储在交互式分析中),查询其中的200000条数据,用时约0.8秒,比用交互式分析直接查询MaxCompute数据快将近1.5倍。
image

随着MaxCompute中数据量逐渐变多时,交互式分析的查询响应更是表现惊人,这背后的技术离不开我们自研的系统架构。关于交互式分析架构的了解可以参见架构介绍

复杂场景

但其实在真实的场景中,开发者/数据分析师不仅仅只对单一表进行简单查询,更多的是对多表做复杂关联分析、多维分析等。下面通过一个示例来具体展示,交互式分析中对MaxCompute海量数据复杂查询的性能表现:
本示例中MaxCompute两张表的数据量分别为:6亿条和5千万条。
image
image

交互式分析直接加速复杂查询

使用交互式分析直接加速查询MaxCompute中的表数据,并做相同的复杂join,响应时间为:6.6秒。
image

交互式分析导入查询

相同情况下,将MaxCompute中两张表数据导入进交互式分析中,做相同条件的复杂join,响应时间:5.5秒。
image

通过以上场景的讲述,不管是直接加速还是导入查询,在查询响应的性能上都有着惊人的表现,尤其是随着数据量的增多以及查询的复杂度增加时,变现力更是惊人。但有朋友可能会有些疑惑,使用交互式分析直接查询和导入查询性能表现都很不错,到底该怎么选择呢?通俗来讲:
直接查询适用场景:数据量小于100GB的简单查询。
导入查询适用场景:单表查询大于100GB、复杂查询、含索引的查询、数据需更新、insert操作。

今天的分享到此就到这里结束了,关于交互式分析的更多功能请期待下期分享。
也欢迎大家进入我们的钉钉交流群,小编会实时在线为您解答各种疑难杂症!
image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 分布式计算 DataWorks
《交互式分析六脉神剑》之Dataworks-HoloStudio初体验
HoloStudio是基于交互式分析的一站式开发平台,深度集成于DataWorks,除了提供可视化UI一键建表外,还支持纯SQL语言编写,也提供终端功能,像使用psql客户端一样使用HoloStudio来开发交互式分析,方便快捷,灵活巧妙,满足不同用户的不同开发习惯。
7257 0
《交互式分析六脉神剑》之Dataworks-HoloStudio初体验
|
3月前
|
SQL 大数据 数据处理
奇迹降临!解锁 Flink SQL 简单高效的终极秘籍,开启数据处理的传奇之旅!
【9月更文挑战第7天】在大数据处理领域,Flink SQL 因其强大功能与简洁语法成为开发者首选。本文分享了编写高效 Flink SQL 的实用技巧:理解数据特征及业务需求;灵活运用窗口函数(如 TUMBLE 和 HOP);优化连接操作,优先采用等值连接;合理选择数据类型以减少计算资源消耗。结合实际案例(如实时电商数据分析),并通过定期性能测试与调优,助力开发者在大数据处理中更得心应手,挖掘更多价值信息。
49 1
|
JSON 前端开发 数据可视化
漏刻有时云守护数据可视化画质感知状态迭代说明文档
漏刻有时云守护数据可视化画质感知状态迭代说明文档
62 0
|
4月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
84 3
|
分布式计算 资源调度 分布式数据库
流式计算典型系统技术分析|学习笔记
快速学习流式计算典型系统技术分析
流式计算典型系统技术分析|学习笔记
|
缓存 监控 算法
利用可视化分析算法解析电脑屏幕监控软件性能瓶颈
想要通过可视化分析算法优化电脑屏幕监控软件性能嘛,有点复杂但还是挺关键的。提高软件的效率、减少资源占用,并提供更好的用户体验。以下是一些步骤,可以通过可视化分析算法帮助您优化电脑屏幕监控软件的性能——
173 3
|
4月前
|
监控 Java API
【揭秘】如何用Flink CEP揪出那些偷偷摸摸连续登录失败的“捣蛋鬼”?——一场数据流中的侦探游戏
【8月更文挑战第26天】Flink 是一款先进的流处理框架,提供复杂事件处理(CEP)功能以识别实时数据流中的特定模式。CEP 在 Flink 中通过 `CEP` API 实现,支持基于模式匹配的事件检测。本文通过监测用户连续三次登录失败的具体案例介绍 Flink CEP 的工作原理与应用方法。首先创建 Flink 环境并定义数据源,接着利用 CEP 定义连续三次失败登录的模式,最后处理匹配结果并输出警报。Flink CEP 能够轻松扩展至更复杂的场景,如异常行为检测和交易欺诈检测等,有效应对多样化的业务需求。
49 0