从未停止进化的MaxCompute

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2017云栖大会·杭州峰会将于10月10日-14日在杭州云栖小镇隆重举行,据相关数据显示大会多场主题分论坛门票都已经售罄。在这110余场主题分论坛中,可能备受大家最为感兴趣是人工智能、大数据的专场。大数据的热度在深圳峰会、成都峰会、上海峰会都逐一印证。

2017云栖大会·杭州峰会将于10月10日-14日在杭州云栖小镇隆重举行,据相关数据显示大会多场主题分论坛门票都已经售罄。在这110余场主题分论坛中,可能备受大家最为感兴趣是人工智能、大数据的专场。大数据的热度在深圳峰会、成都峰会、上海峰会都逐一印证。

提到阿里巴巴、阿里云大家都会想到大数据、科技,也会联想到阿里巴巴自研的大数据平台MaxCompute。MaxCompute从诞生至今也已经有7个年头了:从 2010 年 4 月,MaxCompute正式投入阿里云金融生产到2016 年 MaxCompute 2.0 云栖大会正式对外发布,无不证明MaxCompute在成长、在壮大、在拥抱生态、在赋能更多伙伴实现业务数据化,数据业务化。
(图:2016杭州云栖大会 计算平台负责人关涛做MaxCompute2.0发布)
距离2016年云栖大会已经整整一年,今年云栖大会·杭州峰会,MaxCompute会给大家带来什么不一样的主题分享呢?我们先看今年阿里云大数据计算服务(MaxCompute)专场的议题安排,在10月14日上午,具体如下:
时间
主题
讲师
9:00——9:30
MaxCompute 2.0:阿里巴巴的大数据进化之路
关涛 Senior Staff Engineer
9:30——10:00
MaxCompute拥抱开源大数据技术生态
李睿博 高级专家
10:00——10:30
MaxCompute的索引与优化实践分享
戴谢宁 高级专家
10:30——11:00
MaxCompute助力众安保险快速成长
王超群 众安保险数据总监
11:00——11:30
MaxCompute基于BigBench标准的最新测试进展
路璐 技术专家
11:30——12:00
大数据计算服务MaxCompute的技术回顾与发展
林伟 研究员
MaxCompute 2.0从对外发布至今已经一年之余(MaxCompute在对外发布、上线都是需要在阿里巴巴集团内生产上锤炼并按期稳定运行2个月才能对外),那在这一年阿里巴巴的大数据技术都在哪些方面进化了,从架构上,从计算效率上,从存储成本上,从拥抱开源生态上、从对非结构化数据的支持上等,MaxCompute2.0一直在进化,从未停止过。这里有我们MaxCompute掌门人关涛对各位开发者做一个年度总结,总结MaxCompute 2.0在这一年是如何蜕变?
那提起阿里巴巴自主研发的大数据计算平台MaxCompute,更多人可能都喜欢将其与Hadoop、Spark、Flink等开源社区的产品做对比。Hadoop生态的繁荣是所有开发者都毋庸置疑的,但是并不代表其可以被所有开发者乃至创业公司、经过几轮融资的风口公司以及数据业务壮大的公司所能够有效掌控利用起来的。需要的运维团队、机房建设、网络建设等都是互联网风头上公司不可承受的时间成本和财务成本。而MaxCompute在公共云上对外提供服务,所有开发者只需要1分钟开箱即用,无需关心底层架构、运维等,同时MaxCompute在拥抱生态上也有了大幅度提升,用户可以无缝将任务迁移至MaxCompute,等等。这一块由MaxCompute生态研发主管李睿博为大家带来精彩分享。
MaxCompute在这一年来也做了很多优化,对阿里巴巴集团内以及对外部的客户都无形中释放了很多红利,比如MaxCompute 2.0在索引与优化上做了很多优化。随着业务的复杂性提升,MaxCompute遇到的问题千奇百怪,五花八门,匪夷所思。本Topic皆在解密MaxCompute2.0索引的原理以及如何优化慢查询的实践。
为此,MaxCompute 运营团队要邀请到众安保险数据总监王超群,为大家分享,众安保险是如何用MaxCompute为众安保险插上了大数据的翅膀。众安保险是一家数据驱动的创新型互联网保险公司,这家公司通过大数据的手段挖掘新的社会需求、创造新的产品,公司几乎所有的数据业务、算法模型都每天安全可靠的运行在MaxCompute上。MaxCompute是如何助力众安保险在云计算时代快速成长,为数据驱动的公司带来了哪些价值。
对于MaxCompute 有了一个全新的SQL 2.0引擎,无不实现高性能与低成本。这些在国际上都是有相关记录,在2015年Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中, 阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。Sort Benchmark有全球科技公司“计算奥运会”之称,更早之前Hadoop的记录是72分钟。
2016 年 11 月 10 日,Sort Benchmark 在官方网站公布了 2016 年排序竞赛 CloudSort 项目的最终成绩。阿里云以$1.44/TB 的成绩获得 Indy(专用目的排序)和 Daytona(通用目的排序) 两个子项的世界冠军,打破了 AWS 在 2014 年保持的纪录 4.51$/TB。这意味着阿里云将世界顶级的计算能力,变成普惠科技的云产品。CloudSort 又被称为“云计算效率之争”,这项目赛比拼的是完成 100T 数据排序谁的花费更少,也是 Sortbenchmark 的各项比赛当中最具现实意义的项目之一。
那2017年,MaxCompute研发团队并没有闲着,他们到底在这一块标准测试中有哪些进展?本次也会由路璐技术专家为大家同步并介绍这一年来的测试进展。
从ODPS到MaxCompute,从MaxCompute到MaxCompute2.0,产品和技术上都得到很大提升,也很大服务将技术红利让给我们的用户,从计算、存储成本的节省,到开发效率的提升,再到生态开源的对接,MaxCompute一直在成长,那未来的路应该怎么顺应大数据时代潮流,如何满足不断变化的需求,林伟亲自为大家解读。
2017 杭州· 云栖大会 阿里云大数据计算服务(MaxCompute)专场不见不散!
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何实现通过离线同步脚本模式
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之大数据计算MaxCompute是否支持直接在多个节点之间进行批量复制
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
MaxCompute产品使用合集之大数据计算MaxCompute是否支持直接在多个节点之间进行批量复制
|
7月前
|
机器学习/深度学习 SQL 分布式计算
MaxCompute产品使用合集之大数据计算MaxCompute如果要把A的数据迁移到B,操作步骤是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute即使用相同的SQL语句在DataWorks和Tunnel上执行,结果却不同,如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之如何同步两个环境的参数
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之怎么在生产环境中执行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
SQL 分布式计算 运维
MaxCompute产品使用合集之在大数据计算MaxCompute中,怎么查看工作空间中正在运行的查询和任务
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之大数据计算MaxCompute是否支持递归
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之MaxCompute的性能受到哪些因素的影响
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之dataworks 目前所支持的最小调度如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
58 0