阿里云MaxCompute 2018-09月刊

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云 MaxCompute 2018-09 新功能发布汇总,更有技术干货、最佳实践、云栖头条及程序人生的精彩博文推荐,欢迎阅读。

2018年9月大数据计算服务 MaxCompute 又发布新功能啦!
_

【新功能】MaxCompute窗口函数支持WINDOW_CLAUSE

参考文档

适用客户

数据开发人员在进行数据开发过程中,用到调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口,避免了这一现象。

发布功能

为了避免多次调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口。

【新功能】子查询支持SCALAR SUBQUERY
参考文档

适用客户

适用于数据开发人员,在做数据开发时,遇到SUBQUERY的输出结果为单行单列的时候,可以当做标量来使用。

发布功能

MaxCompute SQL 中当SUBQUERY的输出结果为单行单列的时候,可以当做标量来使用。

【新功能】MaxCompute SQL-支持OUTER LATERAL VIEW
参考文档

适用客户

适用于数据开发人员,在做数据拆分的同时进行聚合的需求时,使用Outer Lateral View功能和split、explode等UDTF一起封装使用。

发布功能

Lateral view通常和split、explode等UDTF一起封装使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
Lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,Lateral view再把结果聚合,产生一个支持别名表的虚拟表。
Lateral view outer:当table function不输出任何一行时,对应的输入行在Lateral view结果中依然保留,且所有table function输出列为null。

【新功能】MaxCompute 支持使用UDJ(User Defined Join)自定义SQL的Join操作
参考文档

适用客户

数据开发人员在遇到很多跨表操作的需求时,原来要依赖于内置join + 各种UDF/UDTF+复杂的SQL语句来完成,一些情况下还只能完全自定义MR来完成,这两个方式门槛高且执行效率低。MaxCompute在UDF框架中新近引入的一种新扩展机制:UDJ(User Defined Join),来实现灵活的跨表、多表自定义操作,同时减少不得不通过MR等方式对分布式系统底层细节的操作。

发布功能

MaxCompute在UDF框架中新近引入的一种新扩展机制:UDJ(User Defined Join) 来实现灵活的跨表、多表自定义操作,同时减少不得不通过MR等方式对分布式系统底层细节的操作。

【新功能】MaxCompute支持使用UDT在SQL中直接引用第三方语言的类或者对象,获取其数据
参考文档

适用客户

适用于数据开发人员在进行数据开发过程中,为了实现一些简单的功能而用到第三方语言的类或对象时,之前只能使用UDF这个过程繁杂的方式,通过UDT则可以直接在SQL中直接调用,提升了SQL语言编译过程的易用性与语言的表达能力,进而提升数据开发人员的工作效率。

发布功能

MaxCompute的UDT提供了调用第三方库的功能,不需要用特殊的DDL语法来定义类型的映射,直接在SQL中使用。

【新功能】国际站开启FullScan限制功能
参考文档

适用客户

追求成本控制的MaxCompu用户。

发布功能

通过限制全表扫描,可以控制SQL/MR计算量,避免用户因暴力扫描导致的贵账单。

【体验优化】MaxCompute优化器(Optimizer)性能提升

MaxCompute优化器(Optimizer)基于MaxCompute-bench测试集合整体性能在生产环境可以提高约7%。

优化功能

1、Advanced Shuffle Remove:可以支持Sorted Merge Join和Sorted Aggregate的排序和分布属性被后续操作利用,从而减少Shffle操作。
2、Dynamic Parallelism: 对运行时的数据量动态估计reduce数量。
3、Auto Map Parallelism:Map split size支持列裁剪和压缩比估计。
4、Map Join小表汇集: Map Join小表将首先汇集到单节点,提升broadcast的效率。
5、多处优化性能调优:分区裁剪、代价估计算法的性能有多处调优,优化做得更快。
6、更完整的Join Grouping。

【新地域/可用区】大数据计算服务 MaxCompute 英国(伦敦)节点正式开服售卖
现在开通

大数据计算服务 MaxCompute 英国(伦敦)节点开服售卖。 可在国际站、中文站、日本站购买迪拜节点资源,在控制台按需求开通project。



好文推荐>>>

【技术干货】十三次大数据技术实践的直播回看与资料下载,你值得拥有

【技术干货】开箱即用的安全方案:MaxCompute数据安全方案介绍

【最佳实践】华北1 ECS 数据如何免费且高速同步到华北2MaxCompute

【云栖头条】阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化

【产品动态】MaxCompute存储力持续升级,每年节省不止一个亿

【程序人生】专访20年技术老兵云郎:16年峰回路,每一步都是更好的沉淀

更多交流咨询欢迎加入“MaxCompute开发者交流”钉钉群,群号: 11782920,或扫描二维码入群。

image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
50 12
|
16天前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
108 17
|
9天前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
9天前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
43 1
|
29天前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
1月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
2月前
|
机器学习/深度学习 分布式计算 BI
MaxCompute 与阿里云其他服务的协同工作
【8月更文第31天】在当今的数据驱动时代,企业需要处理和分析海量数据以获得有价值的洞察。阿里云提供了一系列的服务来满足不同层次的需求,从数据存储到高级分析。MaxCompute(原名 ODPS)作为阿里云的大规模数据处理平台,提供了强大的计算能力和丰富的功能,可以与阿里云的其他服务无缝集成,形成完整的大数据解决方案。本文将探讨 MaxCompute 如何与其他阿里云服务协同工作,包括存储服务 OSS、数据分析服务 Quick BI 以及机器学习平台 PAI。
26 0
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
82 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
82 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    无影云桌面