阿里云 MaxCompute 2021年4-6月刊合集

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本次月刊合集包含 MaxCompute 近期功能发布及商业化动态,更推荐10篇技术及实践文章供产品用户阅读了解。

欢迎通过本期月刊了解 MaxCompute 2021年4月-6月产品动态


1、MaxCompute 支持 Dynamic Filter 智能优化功能提高任务执行效率  查看文档 >>


适用客户

开发者、分析师、SQL优化用户


发布功能

JOIN是分布式系统中常见的操作,在海量数据场景下,也是一个非常耗时、耗资源的操作。针对JOIN场景,MaxCompute推出Dynamic Filter 智能优化功能,可以利用JOIN本身的等值连接属性,基于运行时动态生成过滤器,在Shuffle或JOIN之前提前过滤数据,实现加速查询运行。


该功能适用于维度表和事实表执行JOIN的场景。您可以在Session级别通过开关强制打开、智能选择打开或手工提示使用动态过滤器,并使用动态分区裁剪方法先过滤分区再使用动态过滤器。



2、2021年8月10日 MaxCompute 流式数据通道服务功能商业化


2021年8月10日,MaxCompute 流式数据通道服务功能即将结束免费公测,开始对流式数据通道服务写入的数据按量计费。


计费公式及规则:

流式数据写入费用 = 流式写入数据量(GB)×流式数据写入价格(0.08元/GB)

  • MaxCompute为每个MaxCompute项目每天提供100GB的免费流量,当天写入数据量超出100GB部分按上述计费公式计费。
  • MaxCompute会按天推送您的流式写入计量信息,并在第二天给出您的流式写入费用账单。
  • 流式写入数据量:指写入请求的HTTP Body的大小。承载数据的HTTP Body使用ProtoBuffer编码,因此一般比数据原始容量要小,但是比压缩后存储在MaxCompute上的数据量要大。

MaxCompute 流式数据通道服务功详情参见 流式数据通道服务概述。计费详情参见 流式数据写入费用(按量计费)



3、2021年8月10日 MaxCompute SQL 的 UPDATE、DELETE和MERGE INTO功能商业化


2021年8月10日,MaxCompute SQL的UPDATE、DELETE和MERGE INTO功能即将结束免费公测,开始正式计费。已经使用UPDATE、DELETE和MERGE INTO功能的按量计费作业,届时会产生计算费用。


如果您之前因为担心公测稳定性问题而暂未使用UPDATE、DELETE和MERGE INTO功能,届时可以放心使用。

MaxCompute为UPDATE、DELETE和MERGE INTO功能的相关可用性、稳定性等提供与MaxCompute SQL能力同等保障。

计费公式及规则:

  • 如果MaxCompute项目的计费模式为包年包月,计算费用不单独收费。
  • 如果MaxCompute项目的计费模式为按量计费,计算费用计算规则调整为:单条SQL计算费用=计算输入数据量×SQL复杂度×单价(0.3元/GB)。其中:SQL复杂度通过SQL关键字个数折算。SQL关键字个数=JOIN个数+GROUP BY个数+ORDER BY个数+DISTINCT个数+窗口函数个数+MAX(INSERT个数|UPDATE个数|DELETE个数-1, 1)。

 

如果您担心费用超出预期,可以配置消费监控告警控制消费。更多监控告警信息,请参见 消费监控告警

您还需要注意如下内容:

  • 如果MaxCompute项目的计费模式为按量计费,MaxCompute会根据UPDATE、DELETE和MERGE INTO语句扫描的输入数据量×SQL复杂度×单价计算费用。当您对Transactional表执行更新或删除操作后会生成Delta文件,Delta文件积累较多后会造成数据膨胀并影响读取性能,也会逐渐增大扫描数据量,增加费用。即使MaxCompute项目的计费模式为包年包月,也会占用更多资源,影响后续作业执行效率。您可以通过Compact方法合并Delta文件,更多语法信息请参见 合并Transactional表文件
  • MaxCompute会按照批处理方式执行delete、update作业,每一条语句都会使用资源并产生费用,建议您使用批量方式删除或更新数据,请参见 更新或删除数据(UPDATE | DELETE)。命令示例如下

        --推荐方案:使用关联方法,一次改写或删除所有需要操作的数据。 update table1 set col1= (select value1 from table2 where table1.id = table2.id and table1.region = table2.region);

        --不推荐方案:逐行操作。 update table1 set col1=1 where id='2021063001'and region='beijing'; update table1 set col1=2 where id='2021063002'and region='beijing'; ......



4、MaxCompute 视频中心全新改版上线  视频中心>>


MaxCompute 新版视频中心包含产品发布会、大数据系列公开课、近年云栖大会精彩演讲、行业客户案例、最佳实践、人物专访等内容,方便您一站式获取MaxCompute相关的视频信息。

 


5、精选技术及实践文章




MaxCompute 产品官网 >>

阅读往期月刊 >>

阿里云 MaxCompute 2021-3 月刊 >>


更多关于大数据计算、云数仓技术交流,欢迎扫码加入 “MaxCompute开发者社区” 钉钉群

哈哈哈哈.png



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
16天前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
17471 26
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
15天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
20天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
22天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
35 1
|
22天前
|
存储 弹性计算 大数据
阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求
【7月更文挑战第3天】阿里云ECS在大数据处理中展现高效存储与计算实力,提供多样化实例规格适应不同需求,如大数据型实例配备高吞吐硬盘。与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保任务高效运行。案例显示,使用ECS能提升处理速度、降低成本,为企业数据驱动创新提供有力支持。
34 1
|
7天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之在阿里云DataWorks中,如何关闭跨空间查询表功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
机器学习/深度学习 运维 算法
|
3天前
|
弹性计算 应用服务中间件 Linux
阿里云服务器开放端口完整图文教程
笔者近期开发完成的服务端程序部署在阿里云的ECS云服务器上面,一些应用程序配置文件需要设置监听的端口(如Tomcat的8080、443端口等),虽然通过CentOs 7系统的的「防火墙」开放了对应的端口号,任然无法访问端口号对应的应用程序,后面了解到原来还需要设置云服务器的「安全组规则」,开放相应的端口权限,服务端的接口才能真正开放。
51 1
阿里云服务器开放端口完整图文教程
|
7天前
|
存储 弹性计算 大数据
阿里云服务器怎么样?云服务器ECS功能、租用费用全解析
阿里云ECS是弹性计算服务,提供安全可靠的云服务器,包括多种实例规格如经济型、通用型、计算型等,适合不同场景。ECS支持VPC专有网络、快照与镜像、多种付费模式。用户可按需选择计算架构、存储类型,享受灵活的网络控制、自动化数据备份和低成本计算资源。适用于Web应用、在线游戏、大数据分析和深度学习等场景。阿里云提供免费试用和优惠价格,服务众多知名企业,如新浪微博。
|
7天前
|
存储 弹性计算 大数据
阿里云服务器怎么样?全访问解析云服务器ECS功能、租用、优缺点及使用说明
阿里云ECS是弹性计算服务,提供安全可靠的云服务器,包括多种实例规格如经济型、通用型、计算型等,适合不同场景。ECS支持VPC专有网络、快照与镜像、多种付费模式。用户可根据业务需求选择实例、存储类型和网络配置。阿里云服务器适用于Web应用、游戏、大数据和深度学习等场景,提供免费试用和不同优惠套餐。众多知名企业如新浪微博等信赖阿里云服务。更多信息可访问阿里云官方网站。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute