开发者社区> 大数据与机器学习> 大数据计算 MaxCompute

大数据计算 MaxCompute

关注

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

0
今日
8196
内容
9
活动
348164
关注
|
分布式计算 大数据 MaxCompute
|

变而不变:我看分布式系统发展和阿里实践

本文PPT来自阿里云大数据计算平台资深架构师林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

4164 0
|
存储 JSON 分布式计算
|

标签分类理论

最近在做DMP,负责设计一套标签管理系统。在对现有标签进行整理的过程中,整理出了这套东西。 0. 标签的定义:标签分类学(Taxonomy) 对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。所以为了把握这个概念,就需要采取定义另一种办法:分类与枚举。 我们要解决的第一个

12742 1
|
资源调度 分布式计算 调度
|

Fuxi ServiceModeJob 多租户(Quota Group) 功能介绍

概述 ServiceModeJob(又名:OnlineJob)是fuxi提供的一套准实时计算框架,通过毫秒级的调度开销和网络Shuffle模式为小Job提供更高的性能。目前ODPS对内生产集群约1/3的Job通过ServiceModeJob进行处理,对其中小Job比较多的集群,这个占比会提高到70

4334 0
|
分布式计算 MaxCompute
|

MaxCompute(原ODPS) 脑图 - 常用知识总结

MaxCompute常用知识整理

3791 0
|
算法 数据可视化 物联网
|

基于阿里云数加平台的大数据Serverless实践

本文PPT来自班输于10月16日在2016年杭州云栖大会上发表的《基于阿里云数加平台的大数据Serverless实践》。

4193 0
|
SQL 分布式计算 大数据
|

MaxCompute应用限制整理

好多同学在使用MaxCompute时,对产品的应用限制并不了解。这里,我们将给出MaxCompute产品的详细应用限制列表。如有遗漏,还请大家补充: 命名规范:原则上,项目(Project),表(Table),函数(Function),资源(Resource),分区(Partition

4195 0
|
分布式计算 监控 数据可视化
|

2016Qcon上海之旅

转载wangshen主要是大数据应用方向早上第一个听了IBM 企业海量数据以及全面云数据服务实践,主要介绍 了IBM 云计算的应用场景,主要是介绍IBM 在云数据服务方面的应用,主要是分享了几个客户案例.

2131 0
|
机器学习/深度学习 分布式计算 大数据
|

一图胜千言,阿里云视觉大数据智能计算实践

在2016云栖大会杭州峰会人工智能专场上,阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”,图像所包含的数据量非常之大,如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢?本文就为大家分享。

6115 0
|
分布式计算 大数据 测试技术
|

MaxCompute分布式计算如何提升基因大数据处理速率?

在2016杭州云栖大会首日,来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》,他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享,详细介绍了华大基因运用阿里云处理海量的实践。

3953 0
|
分布式计算 MaxCompute 索引
|

MaxCompute(原ODPS)任务优化之列裁剪

  最近因为几个ODPS任务节点扣分严重,计算健康度一度堕落至85分的红线以下,上了一次黑榜,立马开始了艰苦的优化之旅。刚刚前几天搞定了两个OpenMR的列裁剪优化,略作记录。

4792 0
|
数据挖掘 大数据 BI
|

云数据,大计算—海量日志数据分析与应用

网站日志分析是大数据应用场景中非常常见的一种,今天我们通过实例对网站日志数据进行分析,从日志采集——>日志数据清洗、加工做画像分析——>BI报表展现,更进一步,通过社交数据分析做好友推荐 ,对整个全链路过程做实验操作演练,希望能给大家提供一些帮助。

6953 0
|
SQL 分布式计算 Java
|

MaxCompute Studio提升UDF和MapReduce开发体验

MaxCompute Studio能为用户开发MaxCompute UDF和MapReduce程序提供支持,提高开发效率。

6939 0
|
分布式计算 MaxCompute
|

RODPS介绍

这篇文章主要是给外部用户介绍如何使用RODPS的 (一)概念介绍 RODPS能够提供一个桥接的方式,使得可以在R语言环境中无缝的使用MaxCompute(原ODPS)里面的数据、计算资源,类似于开源社区的RHive和Rhadoop的功能。 (二)安装R基础环境 2.1 Linux serve

6658 0
|
SQL 分布式计算 OLAP
|

Vectorized Execution Engine in MaxCompute 2.0简介

前言     在《数据库系统中的Code Generation技术介绍》一文中,我们阐述了代码的CPU执行效率对于大规模分布式OLAP系统的重要性。现在简单总结如下: OLAP系统中查询往往比较复杂,比如多表Join, 各种聚合函数以及窗口函数,其中涉及大量的Hash计算(比如采用Hash

4763 0
|
SQL 分布式计算 MaxCompute
|

MaxComputeSql性能调优

 转载自xiaorui         部分用户(尤其对外输出)使用MaxCompute(原Odps)时,由于对产品的使用层面和执行层面了解程度不同,导致提交的任务执行时间过长、占用了较多集群资源;严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。 合并整理部分性能提升方法方

7484 0
|
分布式计算 MaxCompute
|

MaxCompute Optimizer之表达式约化

MaxCompute Optimizer之表达式约化 文章转载自jiehongOptimizer是MaxCompute处理SQL任务的优化器,它的主旨于在根据关系代数的等价描述将中间的执行计划进一步地等价变换,以生成代价更优的执行计划。Optimizer内部有很多优化器,此

3606 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute 中的Code Generation技术简介

前言       在《数据库系统中的Code Generation技术介绍》中,我们简单介绍了一下Code Generation技术及其在大规模OLAP系统,特别是大规模分布式OLAP系统中的重要性。MaxCompute采用了Code Generation技术来提高计算效率。在MaxCompute

4444 0
|
SQL HIVE
|

MaxCompute2.0性能评测:更强大、更高效之上的更快速

MaxCompute2.0(原Odps):通过性能评测,MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上;MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。        本次评测侧重于已发

6319 0
|
SQL 存储 分布式计算
|

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。 而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现

13050 0
|
SQL 分布式计算 大数据
|

使用 MaxCompute Studio 开发大数据应用

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理平台。MaxCompute Studio 为开发者提供了良好的开发体验,本文将展开进行介绍。

15401 0
|
分布式计算 Hadoop Java
|

如何在MaxCompute上运行HadoopMR作业

MaxCompute(原ODPS)有一套自己的MapReduce编程模型和接口,简单说来,这套接口的输入输出都是MaxCompute中的Table,处理的数据是以Record为组织形式的,它可以很好地描述Table中的数据处理过程,然而与社区的Hadoop相比,编程接口差异较大。Hadoop用户如果

4898 0
|
人工智能 分布式计算 大数据
|

倒计时1天!相约杭州云栖,相遇数据智能

2016杭州云栖大会盛大开启,与阿里云大数据一起相约杭州云栖,相遇数据智能!我们精心准备了四大智能看点,等你用一颗大数据的心,鞠一捧智能的“水”。

11161 0
|
存储 分布式计算 MaxCompute
|

MaxCompute 存储优化技巧

文章转自duzhuan本文主要介绍一些ODPS表操作的优化技巧,通过这些技巧,可以有效节省ODPS存储空间和计算量。 合理设置分区表 ODPS支持分区表的概念,分区表指的是在创建表时指定的partition的分区空间,即指定表内的某几个字段作为分区列。在大多数情况下,用户可以将分区类比为文件系统

6726 0
|
分布式计算 MaxCompute
|

MaxCompute MapReduce的7个性能优化策略

本文收录了一些MaxCompute MapReduce优化策略。

5230 0
|
分布式计算 安全 MaxCompute
|

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似,MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台,MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面:1、访问可追溯;2、更细粒度的访问控制;3、跨租户访问控制。访问可追溯

8810 0
|
SQL 分布式计算 Java
|

MaxCompute 2.0 生态开放之路及最新发展

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理系统。

7394 0
|
分布式计算 MaxCompute
|

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一,它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log

6544 0
|
分布式计算 MaxCompute 流计算
|

基于 MaxCompute 的极速的基因测序分析

转载自yizhuo 基因、测序、分析 基因,生命的基本因素,是人类和其他生物的基础遗传物质。人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个。简单理解起来,就是有了这 3Gb 长的字

4363 1
|
分布式计算 数据可视化 Java
|

原来MaxCompute还能这么玩系列(1)—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置,教你如何快速实现MaxCompute的数据可视化

10623 0
|
大数据
|

MaxCompute5个窗口函数限制

MaxCompute使用技巧

2638 0
|
分布式计算 大数据 API
|

R语言和大数据

分布式的R

5583 0
|
分布式计算 大数据 Java
|

低版本mvel在MaxCompute jdk8环境中报java.lang.VerifyError

MaxCompute使用技巧

3989 0
|
分布式计算 大数据 MaxCompute
|

【MaxCompute学习】隐式转化的问题

MaxCompute使用小技巧

4063 0
|
SQL 分布式计算 MaxCompute
|

什么是PyODPS DataFrame

这篇文章解释了PyODPS DataFrame是什么,能做什么事情,以及简单介绍一下实现的原理。

7386 0
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

8760 0
|
机器学习/深度学习 分布式计算 数据挖掘
|

MaxCompute上你从未体验过的数据分析和机器学习过程

PyODPS,拥有对于Python用户传统的数据分析和机器学习愉快的体验,包括了DataFrame框架和机器学习模块,它们类似于pandas+scikit-learn,能用它们进行数据分析、绘图、机器学习等等。

10237 0
|
存储 运维 算法
|

数加平台如何通过Serverless 架构实现普惠大数据

Serverless 架构旨在将应用开发者从底层基础设施的运维中解放出来,更加专注于业务价值的实现上,这种思想对于大数据应用尤其适用,数据科学家更需要投入到数据价值的探索和挖掘上。本文讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,真正的实现普惠大数据。

6567 0
|
分布式计算 Java 数据库连接
|

MaxCompute JDBC 2.0 beta中的一些变更说明

本文主要介绍了在MaxCompute JDBC 2.0 beta 之后就易用性方面对配置相关变更的说明

3556 0
|
存储 关系型数据库 MySQL
|

阿里云开源离线同步工具DataX3.0介绍

阿里云开源离线同步工具DataX3.0介绍 一. DataX3.0概览 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

105755 10
|
分布式计算 大数据 MaxCompute
|

从0-1体验大数据开发

觉得裸用MaxCompute(原ODPS)门槛较高?想做数据开发,却苦于没有好的管理工具?想体验Data IDE觉得前期准备工作太长,欢迎进入大数据体验馆,快速开启体验:https://data.aliyun.com/experience

3435 0
|
大数据
|

7月21日 企业大数据平台仓库架构建设思路直播视频

想了解如何搭建一个好的数据仓库?来听听阿里云高级技术专家-李金波 有何建议?精彩不容错过哦!

2560 0
|
分布式计算 大数据 API
|

PyOdps 0.4版本发布,从一个故事说起

PyOdps 0.4版本,DataFrame API支持使用pandas进行本地计算,用户因此能join ODPS和本地数据,也能进行本地debug,另外还有MapReduce API等新特性

6836 0
|
运维 监控 算法
|

美柚:最懂女性App背后的混合云架构与大数据服务

本次美柚带来的分享包括如何充分利用现有机房服务器资源与阿里云产品组建混合云架构,实现快速部署与大数据的处理与计算服务。同时也详细介绍了美柚在多维度用户数据分析处理和大数据智能挖掘技术的实践经验。

24055 2
|
运维 分布式计算 数据库
|

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

空格APP上线仅仅60天就获得1亿A轮融资,同时依靠阿里云只用了两个礼拜就实现了APP上线。空格技术合伙人刘博本次分享主要介绍了阿里云在空格内的应用经验包括服务端整体架构的搭建和搜索、推荐和数据平台业务场景下的实践探索。

19970 0
|
分布式计算 大数据 MaxCompute
|

零成本体验 MaxCompute 大数据分析

无需注册云账号,零成本立即体验 MaxCompute 大数据分析,访问 http://notebook.odps.online

4538 0
|
分布式计算 数据挖掘 API
|

PyOdps DataFrame来临,数据分析从未如此简单!

PyOdps正式发布DataFrame框架(此处应掌声经久不息),DTer的福音!有了它,就像卷福有了花生,比翼双飞,哦不,如虎添翼。 快过年了,大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章,我只说说其用起来爽的地方。其余的部分,从使用、问题到实现原理,我

11536 0
我要发布