大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

阿里云,Facebook,英特尔,Databricks, Flink 大数据&AI前沿技术一文看尽—2019杭州云栖大会 “大数据&AI” 峰会全集
本次大数据&AI峰会围绕 “大数据和AI” 主题,深入讨论大数据及AI发展的新形势、新挑战和新机遇。主题演讲内容涉及大数据*AI各个方面,广泛且深入。从阿里巴巴 “AI加持的飞天大数据平台、AI at Facebook、英特尔在数据分析和人工智能技术方面的创新,到广受开发者关注的Flink和Spark,通过数据,算力,算法深入阐述数据为本,智能为用,将大数据与AI深度融合,呈现了业界最前沿技术。
阿里云智能推荐AIRec产品介绍
本文中,来自阿里云搜索推荐技术团队的三秋为大家介绍了阿里云智能推荐AIRec产品的技术架构、核心功能,并与大家分享了使用阿里云智能推荐AIRec的实际案例以及技术场景。
云数据仓库MaxCompute最佳实践之数据上云 | 2019飞天大数据平台技术公开课第五季
秋日杲杲,大数据技术公开课第五季开播!本季主题 “云数据仓库 MaxCompute 最佳实践之数据上云”。10.22日-11.12日,每周二 19:00,一起学习大数据。
TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。
【转载】时隔一年多,我又用起了 Superset
去年 6 月份在流利说提离职后,leader 问我为什么要走。我说,流利说有很健全的数据处理基础设施,但这不是所有的公司都会有的条件,所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。
读透《阿里巴巴数据中台实践》,其到底有什么高明之处?
最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
MaxCompute 最新特性介绍2019年8月版
距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。
唱吧基于 MaxCompute 的大数据之路
在使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计
利用MaxCompute InformationSchema和阿里云交易和账单管理API 实现MaxCompute费用对账分摊统计一、需求场景分析非常多的用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按量付费模型极大地减少不必要的费用支持,仅为实际运行的作业付费。

阿里巴巴大数据产品最新特性介绍 | 2019大数据技术公开课第三季
2019大数据技术公开课第三季将为你带来阿里云飞天大数据平台系列产品的最新特性介绍,四位产品专家,四次主题分享,带你全面了解飞天大数据平台主力产品的最新技术动态。

【干货合集 视频+资料下载】2019大数据技术公开课第三季 | 阿里巴巴大数据产品最新特性介绍
2019大数据技术公开课第三季将为你带来阿里云飞天大数据平台系列产品的最新特性介绍,四位产品专家,四次主题分享,带你全面了解飞天大数据平台主力产品的最新技术动态。
MaxCompute问答整理之7月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。
在MaxCompute中利用bitmap进行数据处理
很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。
【转载】阿里云飞天大数据平台亮相
7月25日,阿里云飞天大数据平台亮相阿里云峰会上海站,拥有中国唯一自主研发的计算引擎,是全球集群规模最大的计算平台,最大可扩展至10万台计算集群,支撑海量数据存储和计算。在民生服务领域,飞天大数据平台已经“最多跑一次”、城市大脑等场景中,协助政府优化服务模式,实现更智能便捷的服务能力,保障信息安全。
【转载】为什么只有好超市,才敢卖熟牛油果?
本文授权转载自“硅谷洞察”(微信公众号ID: Guigudiyixian) 版权归“硅谷洞察”所有,未经许可不得二次转载 在很多人的印象里,去市场或超市买水产海鲜,谈不上是一件多么享受的事情。但这两年突然爆红的盒马鲜生,则颠覆了人们的这种印象。
【转载】DT时代,阿里不再藏住“技术公司”标签
来源 | 智能相对论(ID:aixdlun) 虽然Jack马先生总是口出惊人之语,但事实证明他说的话总是不断被应验。 2016年的“新零售”现在已经是公认的零售新篇章,而2014年的“人类正从IT时代走向DT时代”,也在逐渐变成现实——不管什么样的企业,都习惯要“大数据”一下。
【转载】刚刚又传来好消息,硬核!新一代大国重器!MaxCompute
作者:杨国英 十年前,马云、马化腾和李彦宏坐在一起开会聊起它,马化腾说为时过早,李彦宏说没有新意,只有马云说,如果我们不做,将来会死掉!为了做它,整个公司几乎吵到分裂! 然而十年后的今天,它已经成为新一代大国重器,中国最硬核的技术,与美国巨头抗衡的唯一中国力量。
MaxCompute 助力衣二三构建智能化运营工具
本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。 衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助力衣二三构建智能化运营工具的。

海胜专访--MaxCompute 与大数据查询引擎的技术和故事
在2019大数据技术公开课第一季《技术人生专访》中,阿里巴巴云计算平台高级技术专家苑海胜为大家分享了《MaxCompute 与大数据查询引擎的技术和故事》,主要介绍了MaxCompute与MPP Database的异同点,分布式系统上Join的实现,且详细讲解了MaxCompute针对Join和聚合引入的Hash Clustering Table和Range Clustering Table的优化。

春蔚专访--MaxCompute 与 Calcite 的技术和故事
2019大数据技术公开课第一季《技术人生专访》,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute 与 Calcite 的技术和故事。 具体内容包括: 1) 什么是查询优化器;2)MaxCompute查询优化器的具体实践;3)MaxCompute后续计划;4)从校招到阿里巴巴工程师到Calcite committer,他经历了怎样的个人成长。

吴刚专访--大数据和 MaxCompute 技术和故事
2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。
MaxCompute技术人背后的故事:从ApacheORC到AliORC
2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。
大数据心法来了!一站式玩转MaxCompute,还有开发者资源等你领!
阿里云大数据计算平台开发者版2019年3月推出,MaxCompute正在成为开发者的免费大数据平台。 今天,MaxCompute在企业构建自己的数据处理平台实践中起到了至关重要的作用,我们特别精选了企业的真实实践案例:从最大的兴趣社群平台小打卡;到90后、00后喜欢的克拉克拉;从互联网金融的典型天弘基金;到耳熟能详的二手车平台人人车……为你带来了超多的MaxCompute玩法。
基于阿里云 MaxCompute 构建企业云数据仓库CDW的最佳实践建议
通过我们背后的指导思想和我们给出的技术解决方案,希望与大家能够一起探索一些新的基于云上的数据仓库构建的最佳实践,从而尽量避免走弯路。这就是我今天想跟大家分享的内容与目的。
【MaxCompute季报】MaxCompute新功能发布 2019Q1
2019年Q1 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL新功能 预付费资源监控报警 IP白名单支持IPV6 Logview中增加SQL复杂度 预付费套餐(计算资源+存储资源)发布 西南成都节点正式开服售卖
MaxCompute 项目子账号做权限管理
场景: 一个企业使用多款阿里云产品,MaxCompute是其中一个产品,用的是同个主账号,主账号不是由使用MaxCompute的大数据同学管理, 大数据同学使用的是子账号。大数据同学日常需要给MaxCompute项目 操作新增子账号(add user),新的子账号授权(grant xx on project/table)等操作,即日常权限管理。
MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码问题处理实践
MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。
MaxCompute 费用暴涨之新增SQL分区裁剪失败
现象:因业务需求新增了SQL任务,这SQL扫描的表为分区表,且SQL条件里表只指定了一个分区,按指定的分区来看数据量并不大,但是SQL的费用非常高。费用比预想的结果相差几倍甚至10倍以上。 若只知道总体费用暴涨,但是没明确是什么任务暴涨,可以可以参考查看账单详情-使用记录文档,找出费用异常的记录。
MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大
现象:同样的SQL,每天处理的数据行数差不多,但是费用突然暴涨甚至会翻数倍。 分析: 我们先明确MaxCompute SQL后付费的计费公式:一条SQL执行的费用=扫描输入量 ️ SQL复杂度 ️ 0.3(¥/GB)。
PyODPS DataFrame 处理笛卡尔积的几种方式
PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。
优酷背后的大数据秘密
大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。
PyODPS DataFrame 的代码在哪里跑
在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季
数据的价值是解释业务还是预测业务?是支撑业务还是驱动业务?企业级计算服务的核心问题是什么?企业级计算平台要解决的核心问题是什么?商业和技术的平衡点在哪里? 一起直播学习,让数据真正驱动业务。
MaxCompute 预付费标准版VS套餐版
MaxCompute 于5月7日正式售卖预付费(包年包月)套餐资源,主打存储密集型套餐,一共三个套餐: 存储密集型160套餐 存储密集型320套餐 存储密集型600套餐 本文主要给大家介绍预付标准版和套餐版的资源、售价以及两者对比的情况,以供大家选购时进行参考。
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路
MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。
解决大数据难题 阿里云MaxCompute获科技大奖
据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景。目前,这项源自浙江、解决世界级难题的成果已拥有EB(百京)级别的数据存储能力、百PB(千兆)级的单日计算能力。
使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南
现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。