阿里云 MaxCompute 2020-2 月刊

简介: MaxCompute2020年2月刊为您带来Python UDF 支持Python 3 ,MaxCompute存储格式全面升级AliORC等九项最新发布功能。欢迎阅读。

亲爱的开发者, MaxCompute 2020.2月刊已为您准备妥当。本次内容将为您带来2020年2月 MaxCompute 9项重要的功能发布,欢迎详细阅读并结合业务进行实践,任何问题可以加入“MaxCompute开发者社区”进行咨询,社区钉钉群二维码请见文末。

1.【新功能】MaxCompute存储格式全面升级AliORC

MaxCompute推出了自研的大数据列存储格式AliOrc,无论是读写性能,还是数据压缩存储空间,都有明显的提升。

适用客户
MaxCompute公共云客户

发布功能
MaxCompute存储格式升级到AliOrc,客户无需干预,自动升级并提高读写性能。


2.【新功能】 Python UDF 支持Python 3 查看文档 >>>

Python 2 官方即将停止维护,越来越多的三方库也开始只支持 Python 3,MaxCompute也开启Python3的支持。

适用客户
MaxCompute公共云客户

发布功能
Python UDF 支持Python 3的编译和运行环境。


3.【新功能】Tunnel upload sdk 支持 overwrite的 ddl 语义 查看文档 >>>

Tunnel SDK的 UploadSession支持overwirte设置。

适用客户
MaxCompute公共云客户

发布功能
Tunnel SDK的 UploadSession类的createUploadSession方法中增加了overwrite设置,支持客户指定tunnel写入数据时覆盖表/分区中的现有数据。


4.【新功能】SQL中列名书写错误的智能纠错提示

更加丰富智能的语法检查,提高了SQL开发的调试效率。

适用客户
MaxCompute公共云客户

发布功能
SQL运行中,当字段名错误时,MaxCompute将猜测并提示正确的字段名。


5.【新功能】外表支持 MSCK REPAIR TABLE语法 查看文档 >>>

外表支持 MSCK REPAIR TABLE语法,可自动补齐分区,简化了外表DDL操作。

适用客户
MaxCompute公共云客户

发布功能
将数据导入oss后,oss文件路径符合如下格式 oss://xxx/table-location/ptname1=ptvalue1/ptname2=ptvalue2/xxx。创建外表并执行 msck repair table external_table_name [add partitions],sql就会自动的解析oss的目录结构,自动识别分区,并为外表添加分区信息。

6.【新功能】外表访问OSS支持https

查询外部表时,支持底层通过https获取数据,加强了数据传输的安全性。

适用客户
MaxCompute公共云客户

发布功能
查询外部表时,若需要底层通过https获取数据,可以在sql前添加flag:set odps.sql.unstructured.data.oss.use.https=true;一起提交执行来实现。


7.【新功能】GROUPING SETS支持复杂CUBE & ROLLUP嵌套 查看文档 >>>

MaxCompute支持GROUPING SETS与CUBE & ROLLUP嵌套使用,简化了SQL书写,提高开发效率。

适用客户
MaxCompute公共云客户

发布功能
MaxCompute扩充了GROUPING的表达方式,支持CUBE, ROLLUP,GROUPING SETS的嵌套使用,比如groupingsets((os,device,city),(os,device),(os),(),(os,city)),可写成:groupingsets(ROLLUP(os,device,city),(os,city))。


8.【新功能】新增Clone Table命令,支持表的复制 查看文档 >>>

MaxCompute 提供了Clone Table 功能,将表数据复制到另一个表中,让数据移动和复制更便捷。

适用客户
MaxCompute公共云客户

发布功能
MaxCompute 提供了Clone Table 功能,将表数据复制到另一个表中,让数据移动和复制更便捷。


9.【新功能】支持表级别的disable lifecycle 查看文档 >>>

新增SQL命令,支持表级别禁止/恢复生命周期。

适用客户
MaxCompute公共云客户

发布功能
适用TABLE DISABLE LIFECYCLE命令,可以取消掉已经给表设置的生命周期

产品官网 >>>
产品文档 >>>


欢迎扫码加入 MaxCompute开发者社区钉钉群,或 点击链接 申请加入。

image

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
存储 算法 C++
【C/C++ Vector容量调整】理解C++ Vector:Reserve与Resize的区别与应用
【C/C++ Vector容量调整】理解C++ Vector:Reserve与Resize的区别与应用
1621 1
|
存储 SQL 分布式计算
Parquet与ORC高性能列式存储
Parquet与ORC高性能列式存储
1254 0
Parquet与ORC高性能列式存储
|
SQL 自然语言处理 关系型数据库
【Hive】函数 concat 、concat_ws 、concat_group 的区别
【Hive】函数 concat 、concat_ws 、concat_group 的区别
2650 0
|
SQL 分布式计算 大数据
Paimon 与 Spark 的集成(二):查询优化
通过一系列优化,我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%,已基本和 Parquet x Spark 持平,本文对其中的关键优化点进行了详细介绍。
119624 30
|
分布式计算 Apache 流计算
【邀请函】相约CommunityOverCode Asia 2024,共探Flink、Paimon、Celeborn开源新境界!
相约 CommunityOverCode Asia 2024,共探 Flink、Paimon、Celeborn 开源新境界!让我们在技术的浩瀚星海中,携手航行,共创辉煌!
825 7
【邀请函】相约CommunityOverCode Asia 2024,共探Flink、Paimon、Celeborn开源新境界!
|
消息中间件 Java Kafka
实时计算 Flink版操作报错合集之在运行过程中遇到"Could not upload job files"的问题如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
519 0
|
存储 缓存 分布式计算
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
本篇文章介绍了 Gluten 项目的背景和目标,以及它如何解决基于 Apache Spark 的数据负载场景中的 CPU 计算瓶颈。此外,还详细介绍了 Gluten 与 Celeborn 的集成。Celeborn 采用了 Push Shuffle 的设计,通过远端存储、数据重组、内存缓存、多副本等设计,不仅进一步提升 Gluten Shuffle 的性能和稳定性,还使得 Gluten 拥有更好的弹性,从而更好的拥抱云原生。
3136 4
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
|
存储 SQL 分布式计算
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
984 0
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
|
存储 分布式计算 Hadoop
HDFS的副本放置策略及机架感知
副本放置策略的基本思想是: 第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node)。 第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。 第三个副本和第二个在同一个机架,随机放在不同的node中。
|
消息中间件 资源调度 Kafka
Flink / Kafka - Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy 排查与修复 ———————————————— 版权声明:本文为CSDN博主「BIT_666」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/BIT_666/article/details/125419738
使用 Flink - Kafka 接数据 Source 时程序报错:org.apache.flink.runtime.JobException: Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy,任务每次启动后持续10min左右,然后 RUNNING -> FAILED,如此重启失败了多次。
4674 0
Flink / Kafka - Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy 排查与修复  ———————————————— 版权声明:本文为CSDN博主「BIT_666」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/BIT_666/article/details/125419738

相关产品

  • 云原生大数据计算服务 MaxCompute