阿里云 MaxCompute 2021-3 月刊

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2021年3月,MaxCompute管家等多项功能上新,快来一起看看吧。

MaxCompute 3月新发布功能


1、MaxCompute管家作业诊断功能发布 查看文档 >>


作业诊断功能是基于作业运行时产生的各个阶段信息,与历史运行数据对比分析总结问题并给出解决方案,提升作业运行效率实现运维自服务能力。


适用客户

适用基于MaxCompute进行大数据开发和分析的开发者和分析师。


发布功能

MaxCompute 管家发布的慢作业、错作业诊断功能,可以帮助大数据开发者和分析师在日常作业运维中,对慢作业和错作业进行自助诊断分析,通过诊断分析结果给出的建议,对作业进行优化,从而提示作业的运行效率。


诊断功能主要支持7天以内的sql、mapreduce类型的作业诊断,基于作业运行时产生的各个阶段状态信息,与作业历史运行数据进行对比分析,得出作业相比历史在某些环节或诊断维度上的缺陷和问题,并针对问题给出相应的原因和解决方案。


诊断信息展示主要分为4大块内容,分别是作业基础信息、作业历史运行instance列表、控制集群历史耗时分析、计算集群历史耗时分析,方便用户对诊断结果进行阅览,并快速获取到诊断建议。


2、MaxCompute管家SQL周期作业持续空输出或持续全表扫描推荐功能发布 查看文档 >>


MaxCompute管家将定期推荐“SQL周期作业持续空输出或持续全表扫描”作业列表,方便用户发现并进行作业性能和成本优化。


适用客户

适用于通过MaxCompute进行大数据开发的开发者和审计运维人员。


发布功能

MaxCompute管家将定期推荐需要进行性能或成本优化的作业列表,本次主要是针对 “SQL周期作业持续空输出或持续全表扫描”。推荐的结果列表将给出最近一次执行的instance id(点击可进入Logview)以及最近一个月持续运行的次数,可以很方便的获取到需要优化的作业信息,通过信息辅助判断是否需要对作业进行优化,如持续空输出是否是无效作业无需运行避免资源浪费;如持续全表扫描是否是因为脚本遗漏了分区条件需要加上以便减少输入量减少资源消耗。


如若推荐的列表里有作业运行是正常符合预期,则可针对此作业进行取消订阅,后面管家将不再推荐此指标的作业。


3、MaxCompute Project全量作业或Project全量SQL作业超时监控告警功能发布 查看文档 >>


MaxCompute Project全量、Project下SQL作业超时监控告警接入云监控,方便业务管理或运维人员日常作业超时监控。


适用客户

适用于大数据开发的业务管理或运维人员进行日常作业超时监控。


发布功能

MaxCompute支持通过云监控配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本次主要支持两个监控指标:


① 作业运行时长。以MaxCompute项目为单位,监控项目下的所有作业。如果某个作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。如专用于分析师取数据的MaxCompute项目,通常作业运行耗时不长。您可配置该监控指标,如作业运行时间过长,可及时检查是否存在资源紧张或作业计算量过大等问题。如项目存在需要长时间执行的作业,则不推荐配置该监控指标。例如Spark流式作业(spark.hadoop.odps.cupid.engine.running.type=longtime)。


② 作业运行时长_SQL类型。以MaxCompute项目为单位,监控项目下的所有SQL类型作业。如果某个SQL作业的运行时间(包含等待时间)超过设定的阈值,系统会按照配置的报警规则将报警信息发送至报警联系人。例如生产项目,您可配置该监控指标,如果作业运行时间过长,可以及时处理超时问题,避免出现业务延迟。


4、MaxCompute 外部表支持Snappy、Lzo压缩格式 查看文档 >>


MaxCompute 开源数据格式外部表支持Snappy、Lzo压缩格式文件的读写。


适用客户

适用于大数据开发者。


发布功能

如果您的数据格式为textfile,如Json,存放在OSS,希望通过外部表读写且支持压缩,MaxCompute 提供了开源数据格式外部表对Snappy、Lzo压缩文件的读写能力。

文件为Lzo压缩格式,外部表会自动通过后缀名判断压缩算法,并读取数据。向外部表写入Lzo压缩格式数据需要在建表时添加Lzo配置项。

文件为Snappy压缩格式,外部表会自动使用Hadoop默认的Hadoop-Snappy解压缩算法读取数据。向外部表写入Snappy压缩格式数据同样需要在建表时添加Snappy配置项。

您还可以使用Raw-Snappy压缩算法的配置项实现对Raw-Snappy格式的压缩文件读写。


5、MaxCompute SQL支持From_json/To_json函数 查看文档 >>


MaxCompute SQL新增From_json/To_json函数用于Json数据处理。


适用客户

适用于大数据开发者,分析师。


发布功能

From_json函数可以将Json转换成MaxCompute的数据类型,或提取Json中的信息,根据Json字符串jsonStr和schema信息,返回ARRAY、MAP或STRUCT类型。

To_json函数可以将给定的复杂类型Array、Map、Struct ,以Json字符串格式输出。


6、MaxCompute SQL支持Update/Delete/Merge Into语法 (公测)


MaxCompute SQL新支持在行级别操纵表或者分区中的数据的能力,适合对表或分区中少部分数据非频繁删除修改的场景。


适用客户

开发者,分析师,对数仓中数据有删除修改操作需求的用户。


发布功能

Update/Delete 是 MaxCompute 新支持的在行级别操作表或者分区数据的语句。相比之前订正表或者分区中的少量数据,也需要读取全量数据,关联生成新数据之后再Insert Overwrite全量写回的方法,Update/Delete 操作读写数据量都显著下降。当您对目标表的一次操作包括Insert、Update、Delete逻辑时,Merge Into功能可以用一条SQL语句进行一次扫描完成全部操作,执行效率更高。同时,Merge Into任务具备原子性,任一内部逻辑处理失败,则整体作业执行失败,避免同一批操作部分逻辑无法回退或重做的问题。


相关的,您需要创建 Transactional 表才能使用Update/Delete/Merge Into功能。并且因为大数据系统保证任务级别的ACID,当作业并发运行且操作的目标表相同时,可能会出现作业冲突,具体请参考MaxCompute并发写⾏为的ACID。

需要注意的是目前Update/delete/Merge Into 处于公测阶段,不收取计算费用,但公测期间也暂时不对您使用此功能用于生产的作业和数据提供保证,重要数据请做好备份。


Update/Delete文档 >>  Merge Into >>  创建Transactional表 >>  ACID语义说明 >>


MaxCompute 产品官网 >>

阅读往期月刊 >>


更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群

444.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1天前
|
存储 人工智能 数据管理
|
8天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
8天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
37 2
|
1月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
74 18
|
3天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
1月前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
163 19
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
360 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2

相关产品

  • 云原生大数据计算服务 MaxCompute