MaxCompute 物化视图智能推荐最佳实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: MaxCompute 发布 “物化视图智能推荐”,CU算力节省14%

作者 夏俊伟  阿里云高级产品专家  /  郑君正 阿里云高级技术专家



什么是物化视图


MaxCompute物化视图是一种预先计算和存储结果数据的数据对象,也可以称之为“实体化视图”。物化视图可以作为一张虚拟表存在于MaxCompute项目中,它的内容是一个或多个表的聚合,过滤以及Join组合计算结果。物化视图可以大幅度减少查询处理时间以及节省作业计算资源,基于MaxCompute优化器强大的自动查询改写能力,当作业可以复用物化视图结果时,优化器自动把一些复杂的操作替换成读取物化视图操作,从而提升作业执行速度、节省作业计算资源。



什么是物化视图智能推荐


物化视图的使用,不但需要对物化视图的工作原理比较了解,同时需要了解业务数据行为与业务数据的使用场景,给普通用户使用物化视图带来一定困难。


MaxCompute 物化视图智能推荐实现了用户无感知的流程化使用物化视图能力。用户开启物化视图智能推荐后,MaxCompute 可以为用户自动分析业务数据使用场景,自动推荐物化视图,并且可以可视化展现物化视图的使用效果。为物化视图使用大大降低了门槛,同时也带来更多的物化视图使用场景。



物化视图智能推荐的特点


· 简单易用,用户不需要了解物化视图各个底层工作细节,只需选择自己的Project开启自动智能分析。

· 智能,MaxCompute自动对用户历史作业进行分析,自动识别周期性作业,并智能提取作业集合中的公共计算逻辑作为物化视图计算逻辑,并最终转换成用户友好的SQL文本形式,按照推荐程度排序展示给用户。

· 便于管理,MaxCompute控制台提供一站式的功能开通、物化视图管理以及物化视图使用效果展示。



物化视图智能推荐的使用场景


数据治理


随着企业业务发展,公司的业务数据会越来越多,各部门对数据都存在各种数据分析需求,在日常使用过程中,各个部门对数据的使用会存在一定的交叉使用,难免会有大量的相同逻辑的重复计算。


日常用户或者大数据平台管理人员很难发现重复计算,因为重复计算部分可能只是整个计算逻辑中一部分。在发现有重复计算时想修改也比较困难,如果重新抽象一个重复计算的表,下游的依赖作业都需要更改,然后测试上线。会带来额外的工作量,从而导致数据治理很难推动。


使用物化视图智能推荐功能后,MaxCompute会自动分析Project中存在哪些公共的计算逻辑,并且推荐出来,让用户去创建物化视图,有了物化视图后,通过强大的优化器改写能力,能够让作业自动应用上物化视图的计算结果,不需要用户修改原来的逻辑。


示例,在没有物化视图,如下图,Tab4跟Tab5的计算中存在棱形跟圆形部分逻辑是重复计算的,在下图中计算了两遍。

image.png

创建物化视图MV1后,菱形跟圆形部分逻辑只计算了一遍,可以节省计算资源的同时提高计算速度。

image.png


智能数据建模


传统大数据处理,第一步就是既懂技术又懂业务的数据分析专家搭建数据仓库,对数据仓库进行分层,正常模型都分贴源层,明细层,汇总层,应用层等;传统建模方式有以下弊端:

1)模型建的好坏,直接影响到计算的有效性,严重依赖建模的专家;

2)同时随着业务发展,数据越来越多后,难免有模型建的不是很合适的情况,如果再改模型对整个现有任务都有影响;

3)资源浪费,部分模型建好后,但是使用的人很少或者没有使用,导致整个模型白白浪费计算资源和存储资源。

image.png


有了物化视图智能推荐后,用户不需要依赖专家来预先建模。可以做到智能的自动化建模。当用户使用数据后,后端自动分析,分析出重复计算逻辑,MaxCompute自动推荐创建物化视图,实现真正的灵活,快捷的自动化建模。让用户不用担心数据存储情况,计算资源使用效率等问题;用户可以把更多精力放在业务发展上。特别对中小型公司来说,不需要额外要招聘数据建模同学,全部交给MaxCompute物化视图智能推荐即可。

image.png


数据报表/看板


物化视图智能推荐也可以为用户的BI智能报表/看板提供加速能力。MaxCompute会为用户自动分析重复刷新的数据,推荐创建物化视图,有了物化视图后可以预先计算好报表/看板需要的数据,在报表/看板需要用的时候直接会自动改写路由去查物化视图,可以大大降低报表/看板的响应时间。



如何使用物化视图智能推荐


物化视图智能推荐使用非常简单,只需以下几个步骤:


1,登录MaxCompute控制台,点击左边菜单“物化视图”;

2,选择Tab页“设置”,开启智能分析,并且添加需要分析的项目名称;

3,T+1天后,查看Tab页“物化视图推荐”,查看系统根据用户使用行为,推荐出来的公共子查询;

4,选择对应的子查询创建物化视图;

5,T+1天后,查看Tab页“物化视图管理”,可以看到目前哪些查询计算调用了该物化视图以及调用物化视图前后效果对比。



物化视图智能推荐示例


阿里集团数据中台团队负责建设整个阿里的数仓“公共层”,试图将重复计算的逻辑进行收敛,让多个下游业务访问同一个结果表,从而达到节省计算和存储的目的。随着数据量和业务复杂度的几何增长,传统的“公共层”已经很难达到原本设想的状态,主要原因有:


· 找数难

· 逻辑存在相似性但是结果表不完全可用

· 人工发现公共逻辑难度大


MaxCompute推出的物化视图智能推荐功能,恰好能很好的解决上述问题。数据中台团队通过将MaxCompute智能推荐结果转变为物化视图,大大降低了下游作业之间的重复计算,节省了大量计算资源。


一期物化视图智能推荐功能覆盖了4个BU共20个project,命中物化视图的作业,其平均计算资源节省率为14%。后续我们会有更加详细的实际使用案例来展开介绍。



物化视图智能推荐使用说明


物化视图并不能解决所有问题,在绝大部分情况下,总体上看都是可以为用户带来正向收益,包括可以减少计算资源,提高计算速度,并降低计算成本。但是针对某个查询计算,在小概率下会给用户带来负收益,用户需要关注以下几点:


1,公共子查询被物化成物化视图后的数据是否发生数据膨胀,如果发生几倍或者更高的膨胀时,不建议使用物化视图。

2,使用后付费的用户,需要注意目前物化视图节省的是计算资源和计算复杂度,但并不一定会减少数据扫描量,因为在数据物化过程中如果发生数据膨胀后,可能扫描量会增加。


【MaxCompute已发布免费试用计划,为数仓建设提速】新用户可0元领取5000CU*小时计算资源与100GB存储,有效期3个月。立即领取>>

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
人工智能 自然语言处理 大数据
AI大数据智能导诊系统源码 Springboot框架
智能导诊系统是在医院中使用的引导患者自助就诊挂号,在就诊的过程中有许多患者不知道需要挂什么号,要看什么病,通过智慧导诊系统,可输入自身疾病的症状表现,或选择身体部位,再经由智能导诊系统多维度计算,AI智能引擎分析、准确推荐科室,引导患者挂号就诊,实现科学就诊,不用担心挂错号。
57 0
|
4月前
|
存储 NoSQL 大数据
IDC 中国数字化转型盛典:兴业银行「基于悦数图数据库」的「智能大数据云平台」获奖
近日,2023 第八届 IDC 中国数字化转型年度盛典在北京盛大开幕。会上,IDC 中国为 2023 年度“IDC 中国未来企业大奖”卓越奖获奖企业颁奖。兴业银行凭借「基于悦数图数据库」的「智能大数据云平台」荣获“2023 IDC 中国未来企业大奖——未来数字基础架构领军者”殊荣。
IDC 中国数字化转型盛典:兴业银行「基于悦数图数据库」的「智能大数据云平台」获奖
|
6月前
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(下篇) 2
大数据生态安全框架的实现原理与最佳实践(下篇)
|
6月前
|
SQL 安全 大数据
大数据生态安全框架的实现原理与最佳实践(下篇) 1
大数据生态安全框架的实现原理与最佳实践(下篇)
|
6月前
|
SQL 分布式计算 安全
大数据生态安全框架的实现原理与最佳实践(上篇) 2
大数据生态安全框架的实现原理与最佳实践(上篇)
|
6月前
|
SQL 弹性计算 分布式计算
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
2023年9月14日,系列课程第八节《基于ECS倚天实例的大数据加速最佳实践》正式播出,阿里云弹性计算大数据优化负责人李腾飞主讲,内容涵盖倚天大数据场景迁移适配、倚天大数据性能加速实践和倚天大数据场景落地实践。
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
|
11月前
|
存储 SQL 分布式计算
MaxCompute 发布“物化视图智能推荐”,CU算力节省14%
物化视图智能推荐支持自动对用户历史作业进行分析,自动识别周期性作业,智能提取作业集合中的公共计算逻辑作为物化视图计算逻辑,最终转换为对用户友好的SQL文本形式,按照推荐程度排序展示给用户,并支持将物化视图使用效果可视化展现。
|
11月前
|
存储 分布式计算 数据挖掘
MaxCompute 物化视图智能推荐最佳实践
本文主要介绍什么是五话题以及MaxCompute 发布的“物化视图智能推荐”具体内容。
12842 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0

相关产品

  • 云原生大数据计算服务 MaxCompute