开发者社区> 大数据与机器学习> 大数据计算 MaxCompute

大数据计算 MaxCompute

关注

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

0
今日
8268
内容
12
活动
348207
关注
|
分布式计算 资源调度 MaxCompute
|

MaxCompute Studio使用心得系列7——作业对比

在数据开发过程中,我们通常需要将两个作业进行对比从而定位作业运行性能或者结果有差异的问题,但是对比作业时需要同时打开两个studio 的tab页,或者两个Logview页,不停切换进行对比,使用起来非常的不方便。

4161 0
|
Web App开发 SQL 分布式计算
|

阿里云MaxCompute 2019-4月刊

4月新功能发布,精彩技术好文推荐,5月线上线下活动抢先知道,尽在4月刊。

5874 0
|
分布式计算 大数据 Apache
|

【技术干货下载】从 Apache ORC 到 Apache Calcite | 2019大数据技术公开课第一季《技术人生专访》

什么是Apache ORC开源项目?主流的开源列存格式ORC和Parquet有何区别?MaxCompute为什么选择ORC? 如何一步步成为committer和加入PMC的?在阿里和Uber总部的工作体验有何异同?中美两种互联网公司的文化有什么差别?尽在本次直播。

7081 0
|
SQL 分布式计算 HIVE
|

Hadoop Hive迁移至MaxCompute

本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。

2509 0
|
存储 人工智能 分布式计算
|

云计算,能回答地球最终流浪到哪里吗?

云作为前沿科技的集大成者,除了可以提供便利的计算、存储基础设施之外,还可以提供丰富的数据智能能力,通过已知的数据来挖掘未知的深层信息。例如通过阿里云的大数据计算平台MaxCompute可以帮助科学家进行海量数据的处理,通过机器学习PAI可以轻松调用各种算法模型,来确定天体类型,甚至分析温度、空气成分等信息。

2543 0
|
存储 分布式计算 安全
|

阿里靠什么支撑 EB 级计算力?

MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概览,以及每条技术线路未来展望等几个方面做一个概述。

3870 1
|
数据采集 分布式计算 监控
|

基于MaxCompute的数仓数据质量管理

数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。

4019 0
|
分布式计算 安全 关系型数据库
|

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题

2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。

3850 0
|
机器学习/深度学习 分布式计算 算法
|

MaxCompute 图计算用户手册(下)

示例程序 强连通分量 在有向图中,如果从任意一个顶点出发,都能通过图中的边到达图中的每一个顶点,则称之为强连通图。一张有向图的顶点数极大的强连通子图称为强连通分量。此算法示例基于 parallel Coloring algorithm。

2541 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 使用正则表达式选列

编辑MaxCompute SQL 时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxCompute SQL时通过正则表达式表达列(column),从而提升编码效率。

2958 0
|
SQL 分布式计算 大数据
|

MaxCompute如何对SQL查询结果实现分页获取

 由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。

5325 0
|
分布式计算 大数据 Hadoop
|

王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute

十年前,阿里云拉开国内云计算发展的序幕,而作为阿里云的创始人,王坚不仅仅为企业带来了一朵全球前三的云,还打造了一个全球顶级的EB级大数据计算平台MaxCompute。

4027 0
|
SQL 分布式计算 大数据
|

阿里云MaxCompute 2019-3月刊

欢迎阅读 MaxCompute 2019.3月刊,开发者专属版本发布,新增金融、视频行业的案例视频,最新官方文档和技术文章等内容尽在本文。

3719 0
|
分布式计算 DataWorks 测试技术
|

在MaxCompute中配置Policy策略遇到结果不一致的问题

通过policy配置权限后,在DataWorks和console上验证出现结果不一致问题

2243 0
|
分布式计算 监控 DataWorks
|

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks归档日志服务数据至MaxCompute

4152 0
|
人工智能 监控 算法
|

阿里小二的日常工作要被TA们“接管”了!

昨天有人偷偷告诉我说    阿里巴巴其实是一家科技公司! 我想了整整一夜 究竟是谁走漏了风声 那么重点来了,阿里到底是如何在内部的办公、生活中,玩转“黑科技”的呢? AI取名:给你专属的“武侠”花名 花名是阿里巴巴独特的文化,也是阿里员工独一无二的“身份”。

6387 0
|
分布式计算 大数据 MaxCompute
|

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

数字时代,中国已经成为世界互联网的中心,小影(海外版称作为VivaVideo,后简称VivaVideo)作为国内首批短视频出海企业,借助统一的云计算平台快速实现全球业务的线上部署,已经让每一行代码都获得全球化的能力。

2674 1
|
分布式计算 大数据 MaxCompute
|

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2484 0
|
存储 分布式计算 安全
|

企业级性能、安全可靠 阿里云发布企业级大数据平台开发者版

作为可以承载EB级的数据存储能力,百PB级的单日计算能力的企业级计算平台,积极的在“智能+”重要战略中,释放技术红利,普惠大数据生态,帮助企业和个人开发者深化大数据、人工智能等研发应用,拓展“智能+”为更多开发者提供资源并进行赋能。

2220 0
|
Web App开发 SQL 分布式计算
|

Amazon Redshift数据迁移到MaxCompute

Amazon Redshift数据迁移到MaxCompute

10171 2
|
SQL 分布式计算 MaxCompute
|

使用split_size优化的ODPS SQL的场景

使用split_size优化的ODPS SQL的场景

3494 0
|
人工智能 安全 大数据
|

本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责人关涛进行了专访。

2959 0
|
分布式计算 大数据 MaxCompute
|

三七女生节,看程序媛们选好口红色号,踩上高跟鞋,特别美丽,特别凶狠,特别温柔~

口红,尿不湿,代码;撒娇,卖萌,撕叉;烈焰红唇倾斜45度角写代码;我爱你,你用知性保持着最致命的吸引力!

2179 0
|
SQL 存储 分布式计算
|

一文快速了解MaxCompute

一文快速了解MaxCompute 很多刚初次接触MaxCompute的用户,面对繁多的产品文档内容以及社区文章,往往很难快速、全面了解MaxCompute产品全貌。同时,很多拥有大数据开发经验的开发者,也希望能够结合自身的背景知识,将MaxCompute产品能力与开源项目、商业软件之间建立某种关联和映射,以快速寻找或判断MaxCompute是否满足自身的需要,并结合相关经验更轻松地学习和使用产品。

6590 0
|
分布式计算 Shell MaxCompute
|

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

3417 0
|
存储 JavaScript
|

maxcompute 2.0复杂数据类型之map

1. 含义 和Java中的Map一样,多个Key-Value的组合。 2. 场景 什么样的数据,适合使用map类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 数量不固定的多个KeyValue 这类,本身就是Map类型的数据。

4324 0
|
存储 JavaScript
|

maxcompute 2.0复杂数据类型之struct

1. 含义 类似于Java中的类的概念。包含很多类的属性。 2. 场景 什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 多个具有相同前缀的字段 其实struct完全可以拆成多个字段。

2454 0
|
SQL 分布式计算 大数据
|

【MaxCompute季报】MaxCompute新功能发布 2018Q4

2018年Q4 MaxCompute发布了一系列新功能。 本文对主要新功能和增强功能进行了概述。 SQL功能增强: Grouping Sets 多维聚合分析 (CUBE and ROLLUP) GROUPING 和 GROUPING_ID 函数 UDF和外表功能增强 SQL语言支持: 数据集.

4479 0
|
JavaScript
|

maxcompute 2.0复杂数据类型之array

1. 含义 类似于Java中的array。有序、可重复。 2. 场景 什么样的数据,适合使用array类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 标签类的数据 为什么说标签类数据适合使用array类型呢?(1)标签一般是一个只有key、没有value的结构;(2)标签的数量(枚举值个数)会非常多;(3)标签的变化会比较频繁;(4)标签会过期;因此,比起“创建多个字段”、“使用指定分隔符分隔的字符串”、“使用map”等方法,使用array是更合适的。

4925 0
|
SQL 存储 关系型数据库
|

【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案

问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。

12853 1
|
SQL 分布式计算 MaxCompute
|

解决MaxCompute SQL count distinct多个字段的方法

按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。

5642 0
|
Web App开发 分布式计算 安全
|

阿里云MaxCompute 2019-1月刊

亲爱的开发者们,,MaxCompute 2019.1月刊为您带来产品最新动态和丰富的产品技术内容,欢迎阅读。

6036 0
|
存储 分布式计算 算法
|

基于MaxCompute的媒体大数据开放平台建设

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。

5827 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL随机抽取N行数据

本文将为您介绍如何对数据随机取出数据的前 N 条数据。 示例数据 目前的数据,如下表所示: empno ename job sal 7369 SMITH CLERK 800.0 7876 SMITH CLERK 1100.

6722 0
|
分布式计算 BI 数据库
|

基于MaxCompute打造轻盈的人人车移动端数据平台

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,人人车大数据平台负责人吴水永从人人车数据平台的整体架构、如何基于阿里云打造一个轻盈的数据平台以及人人车企业基于阿里云技术开发的BI数据报表平台等三个方面进行了精彩分享。

3302 0
|
机器学习/深度学习 算法 数据挖掘
|

图(关系网络)数据分析及阿里应用

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

4091 0
|
存储 分布式计算 大数据
|

MaxCompute,基于Serverless的高可靠大数据服务

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密。

3494 0
|
分布式计算 大数据 MaxCompute
|

比起表白这件事,玩大数据会更容易吗?

有人认为爱是性,是婚姻,是清晨六点的吻,是一堆孩子,也许真是这样的,莱斯特小姐。但你知道我怎么想吗,我觉得爱是想触碰又收回手。 ——塞林格 《破碎故事之心》

7181 0
|
SQL 算法 关系型数据库
|

PostgreSQL 优化器代码概览

简介 PostgreSQL 的开发源自上世纪80年代,它最初是 Michael Stonebraker 等人在美国国防部支持下创建的POSTGRE项目。上世纪末,Andrew Yu 等人在它上面搭建了第一个SQL Parser,这个版本称为Postgre95,也是加州大学伯克利分校版本的PostgreSQL的基石[1]。

2581 0
|
SQL 分布式计算 大数据
|

MaxCompute_SQL_开发指南

背景及目的 本文结果都是在SQL标准语义模式下的推导结果,希望大家都能够按照标准的SQL语义来写SQL,这样才能保证后续SQL的可移植性。 SQL概述 MaxCompute SQL适用于海量数据(GB、TB、EB级别),离线批量计算的场合。

3724 1
|
SQL 分布式计算 Java
|

MaxCompute_UDF_开发指南

本文将介绍Java / Python UDF 如何使用新建工程,添加代码,打包,上传资源包和注册方法,对初次接触的用户提供帮助。

4964 0
|
分布式计算 Java MaxCompute
|

MaxCompute_SDK_开发指南

方便和辅助 MaxCompute 开发人员使用 Java / Python SDK 方式进行日常代码的开发工作。

4582 0
|
分布式计算 大数据 Java
|

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

基于Tunnel SDK如何上传复杂类型数据到MaxCompute?首先介绍一下MaxCompute复杂数据类型: 复杂数据类型 MaxCompute采用基于ODPS2.0的SQL引擎,丰富了对复杂数据类型类型的支持。

9540 0
|
分布式计算 安全 BI
|

云上数据仓库选型指南

云数据仓库是构建在云上的新一代数据仓库解决方案,如何选择符合企业需求的云数据仓库,选择时应考虑哪些关键问题成为很多企业管理者关心的问题。本文参考TDWI以及Forrester的研究报告内容,对云数据仓库选型参考依据进行介绍,希望能对您在云数据仓库选型时有所帮助。

4109 0
|
SQL 分布式计算 安全
|

MaxCompute studio与权限那些事儿

背景知识 MaxCompute拥有一套强大的安全体系,来保护项目空间里的数据安全。用户在使用MaxCompute时,应理解权限的一些基本概念: 权限可分解为三要素,即主体(用户账号或角色),客体(表/资源/函数等),以及操作(与特定客体类型相关),详细参考 https://help.aliyun.com/document_detail/27935.html。

2381 2
|
机器学习/深度学习 分布式计算 大数据
|

互联网下半场的角逐,玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场(北京站)干货集锦

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

13659 0
|
SQL 存储 分布式计算
|

21分钟教会你分析MaxCompute账单

阿里云大计算服务MaxCompute是一款商业化的大数据分析平台,其计算资源有预付费和后付费两种计费方式。并且产品每天按照project为维度进行计量计费(账单基本情况下会第二天6点前产出)。本文使用的为云上客户真实数据,故在下文中的截图都mask掉了。

4162 0
|
分布式计算 Java 大数据
|

使用MaxCompute Java SDK 执行任务卡住了,怎么办?

场景一 用户A A: “亲,用 MaxCompute Java SDK 跑作业,为什么卡住不动了?” me: “有 Logview 吗?发来看下” A: “没有,我用的是SDK,没Logview” 场景二 用户B B :“亲,用 MaxCompute Java SDK 访问 Table,为什么卡住半天没反应?” me:“卡在哪一行了?” B:"就 RestClient retry 然后卡住了" 去繁就简 用户 A 的问题在于没有 instance 的 logview,导致无法追踪 instance 的运行过程。

2467 0
|
分布式计算 大数据 MaxCompute
|

使用 top instance 命令查看运行中 MaxCompute 作业

我们都知道,在 MaxCompute Console 里,可以使用下面的命令来列出运行完成的 instance 列表。 show p|proc|processlist [from <yyyy-MM-dd>] [to <yyyy-MM-dd>] [-p <project>] [-limit <nu...

2157 0
|
算法 大数据 新制造
|

中小企业如何借力工业互联网抵抗死亡潮?

对于不同的企业来说,跨步进入工业互联网的核心问题并不是“怎么做”,而是“能做什么”、以及“能不能做”。 尤其是在政策大力推动企业“上云上平台”的过程中,企业投入人力和成本,那么“上云了之后能做什么”就成为了很多中小企业主最大的疑问和顾虑。

2245 0
我要发布