大数据计算 MaxCompute-博文-第27页-阿里云开发者社区-阿里云

隐林

|

存储分布式计算大数据

|

博文

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

概述：大数据时代，谁掌握了足够的数据，谁就有可能掌握未来，而其中的数据采集就是将来的流动资产积累。任何规模的企业，每时每刻都在产生大量的数据，但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息，而在于对这些数据进行智能处理，从中分析和挖掘出有价值的

7341 0 1

隐林

|

分布式计算 IDE 大数据

|

博文

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

老板每天都要出这些业务数据（销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...），我得想个一劳永逸的方法了…

8822 0 1

冶善

|

分布式计算监控 Oracle

|

博文

基于OGG Datahub插件将Oracle数据同步上云

一、背景介绍随着数据规模的不断扩大，传统的RDBMS难以满足OLAP的需求，本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中，并利用大数据工具对数据进行分析。 OGG（Oracle GoldenGate）是一个基于日志的结构化数据备份工具，一般用于Oracle数据

9467 1 3

隐林

|

分布式计算运维大数据

|

博文

阿里云数加助力东润环能开启新能源大数据时代

北京东润环能科技股份有限公司（以下简称“东润环能”）是一家从事新能源电力领域的数据信息服务公司，该司开创之初，提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品，并逐步打造三大新能源互联网智慧服务生态圈平台，包括新能源投资开发生态圈第一平台、绿色电力交易与智.

9469 0 0

隐林

|

弹性计算分布式计算 Hadoop

|

博文

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

想用阿里云数加·大数据计算服务（MaxCompute），但是现在数据还在hadoop上，怎么办？别烦恼，跟着我们走，来一次MaxCompute零基础数据迁移之旅～Let’s Go！

18236 0 0

隐林

|

分布式计算关系型数据库大数据

|

博文

【大数据技巧】数据导入到MaxCompute的技巧汇总

用Fluent实现MySQL到ODPS数据集成 ---可以通过Fluentd将其它系统数据利用DHS导入到ODPS中海量数据计算应该如何选择数据库 ---MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问

4781 0 1

冶善

|

分布式计算 Java MaxCompute

|

博文

MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

MaxCompute 的数据上传接口（Tunnel）定义了数据 block 的概念：一个 block 对应一个 http request，多个 block 的上传可以并发而且是原子的，一次同步请求要么成功要么失败，不会污染其他的 block。这种设计对于服务端来讲十分简洁，但是也把记录状态做 fa.

6333 0 0

隐林

|

资源调度算法大数据

|

博文

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理

转载自xingbao 各位好，这是介绍阿里云伏羲(fuxi)调度器系列文章的第一篇，今天主要介绍多租户(QuotaGroup)管理的实现一、FuxiMaster简介 FuxiMaster和Yarn非常相似，定位于分布式系统中资源管理与分配的角色：一个典型的资源分配流程图如下所

8226 0 0

隐林

|

资源调度算法大数据

|

博文

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(二) 调度模型

转载自xingbao各位好，这是介绍阿里云伏羲(fuxi)调度器系列文章的第二篇，今天主要介绍调度模型和FIFO\FAIR调度策略一、FuxiMaster简介 FuxiMaster和Yarn非常相似，定位于分布式系统中资源管理与分配的角色：一个典型的资源分配流程图如下所示：作为调度器，目前F

7280 0 0

隐林

|

资源调度固态存储大数据

|

博文

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(四) NodeLabel调度

转载自xingbao各位好，这是介绍阿里云伏羲(fuxi)调度器系列文章的第四篇，今天主要介绍NoedLabel的调度策略一、FuxiMaster简介 FuxiMaster和Yarn非常相似，定位于分布式系统中资源管理与分配的角色：一个典型的资源分配流程图如下所示：作为调度器，目前FuxiM

5420 0 0

隐林

|

资源调度大数据调度

|

博文

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

转载自xingbao各位好，这是介绍阿里云伏羲(fuxi)调度器系列文章的第三篇，今天主要介绍针对在线服务的资源强稳定一、FuxiMaster简介 FuxiMaster和Yarn非常相似，定位于分布式系统中资源管理与分配的角色：一个典型的资源分配流程图如下所示：作为调度器，目前FuxiMas

5251 0 0

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute优化去重计算的性能

转载自dachuan源代码是最好的文档随着双十一数据量的暴增，之前用distinct去重可以简单处理的场景，现在消耗的时间成倍增长。如果用了multiple distinct，那就更要警惕，因为多重去重本身会带来数据量的成倍增长，很可能10分钟的任务，在双十一期间会跑上几个小时都没有结果。这

6203 0 1

云计算小粉

|

分布式计算算法 MaxCompute

|

博文

云端大规模视频分析： MaxCompute在视觉计算中的应用

本文PPT来自阿里云iDST视觉计算技术专家慕开于10月15日在2016年杭州云栖大会上发表的《云端大规模视频分析：MaxCompute在视觉计算中的应用》。

2764 0 0

云计算小粉

|

安全大数据

|

博文

解读基于数加的大数据仓库解决方案

本文PDF摘自袋鼠云CTO宁海元于10月13日在2016年杭州云栖大会上发表的《基于数加的大数据仓库解决方案》。

5341 0 1

云计算小粉

|

分布式计算大数据 MaxCompute

|

博文

数据无边界:非结构化数据在MaxCompute上的处理

本文PPT来自阿里云数据事业部高级专家应答于10月15日在2016年杭州云栖大会上发表的《数据无边界:结构化数据在MaxCompute上的处理》。

3921 0 0

云计算小粉

|

SQL 分布式计算大数据

|

博文

生态与兼容：MaxCompute大数据生态集成和开发工具

本文PPT来自阿里云数据事业部高级专家薛明/艺卓于10月15日在2016年杭州云栖大会上发表的《MaxCompute大数据生态集成和开发工具》。

4987 0 0

云计算小粉

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute SQL 2.0全新的计算引擎

本文PPT来自阿里云数据事业部专家少杰于10月15日在2016年杭州云栖大会上发表的《MaxCompute SQL 2.0全新的计算引擎》。

3179 0 0

云计算小粉

|

分布式计算 MaxCompute

|

博文

MaxCompute Next

本文PPT来自阿里云大数据计算平台资深架构师林伟于10月15日在2016年杭州云栖大会上发表的《MaxCompute Next》。

3252 0 0

云计算小粉

|

分布式计算算法大数据

|

博文

MaxCompute 2.0—从ODPS到MaxCompute

本文PPT来自大数据计算平台开发负责人关涛于10月15日在2016年杭州云栖大会上发表的《MaxCompute 2.0—从ODPS到MaxCompute》。

7084 0 0

场景研读

|

SQL 分布式计算大数据

|

博文

Python+大数据计算平台，PyODPS架构手把手教你搭建

在2016年10月的云栖社区在线培训上，来自阿里云大数据事业部的秦续业分享了《双剑合壁——Python和大数据计算平台的结合实战》。他主要介绍了数据分析和机器学习的方法、DataFrame整体架构以及基础API、前端、后端、机器学习的具体实现方法。

18848 4 5

隐林

|

Web App开发数据可视化双11

|

博文

双11数据大屏直播 / 双11作战大屏

双11大屏直播地址：https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359

9904 0 0

云计算小粉

|

分布式计算大数据 MaxCompute

|

博文

变而不变：我看分布式系统发展和阿里实践

本文PPT来自阿里云大数据计算平台资深架构师林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

4403 0 0

隐林

|

存储 JSON 分布式计算

|

博文

标签分类理论

最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个

13850 1 5

隐林

|

资源调度分布式计算调度

|

博文

Fuxi ServiceModeJob 多租户（Quota Group）功能介绍

概述 ServiceModeJob（又名：OnlineJob）是fuxi提供的一套准实时计算框架，通过毫秒级的调度开销和网络Shuffle模式为小Job提供更高的性能。目前ODPS对内生产集群约1/3的Job通过ServiceModeJob进行处理，对其中小Job比较多的集群，这个占比会提高到70

4704 0 0

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute（原ODPS）脑图－常用知识总结

MaxCompute常用知识整理

4009 0 0

云计算小粉

|

算法数据可视化物联网

|

博文

基于阿里云数加平台的大数据Serverless实践

本文PPT来自班输于10月16日在2016年杭州云栖大会上发表的《基于阿里云数加平台的大数据Serverless实践》。

4546 0 0

halcyon

|

SQL 分布式计算大数据

|

博文

MaxCompute应用限制整理

好多同学在使用MaxCompute时，对产品的应用限制并不了解。这里，我们将给出MaxCompute产品的详细应用限制列表。如有遗漏，还请大家补充：命名规范：原则上，项目(Project)，表(Table)，函数(Function)，资源(Resource)，分区(Partition

4601 0 1

隐林

|

分布式计算监控数据可视化

|

博文

2016Qcon上海之旅

转载wangshen主要是大数据应用方向早上第一个听了IBM 企业海量数据以及全面云数据服务实践，主要介绍了IBM 云计算的应用场景，主要是介绍IBM 在云数据服务方面的应用，主要是分享了几个客户案例.

2331 0 0

云学习小组

|

机器学习/深度学习分布式计算大数据

|

博文

一图胜千言，阿里云视觉大数据智能计算实践

在2016云栖大会杭州峰会人工智能专场上，阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”，图像所包含的数据量非常之大，如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢？本文就为大家分享。

6399 0 1

云学习小组

|

分布式计算大数据测试技术

|

博文

MaxCompute分布式计算如何提升基因大数据处理速率？

在2016杭州云栖大会首日，来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》，他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享，详细介绍了华大基因运用阿里云处理海量的实践。

4206 0 0

隐林

|

分布式计算 MaxCompute 索引

|

博文

MaxCompute（原ODPS）任务优化之列裁剪

最近因为几个ODPS任务节点扣分严重，计算健康度一度堕落至85分的红线以下，上了一次黑榜，立马开始了艰苦的优化之旅。刚刚前几天搞定了两个OpenMR的列裁剪优化，略作记录。

5245 0 1

jing.luojing

|

数据挖掘大数据 BI

|

博文

云数据，大计算—海量日志数据分析与应用

网站日志分析是大数据应用场景中非常常见的一种，今天我们通过实例对网站日志数据进行分析，从日志采集——>日志数据清洗、加工做画像分析——>BI报表展现，更进一步，通过社交数据分析做好友推荐，对整个全链路过程做实验操作演练，希望能给大家提供一些帮助。

7252 0 0

苏学士

|

SQL 分布式计算 Java

|

博文

MaxCompute Studio提升UDF和MapReduce开发体验

MaxCompute Studio能为用户开发MaxCompute UDF和MapReduce程序提供支持，提高开发效率。

7477 0 0

隐林

|

分布式计算 MaxCompute

|

博文

RODPS介绍

这篇文章主要是给外部用户介绍如何使用RODPS的（一）概念介绍 RODPS能够提供一个桥接的方式，使得可以在R语言环境中无缝的使用MaxCompute(原ODPS)里面的数据、计算资源，类似于开源社区的RHive和Rhadoop的功能。（二）安装R基础环境 2.1 Linux serve

7593 0 1

隐林

|

SQL 分布式计算 OLAP

|

博文

Vectorized Execution Engine in MaxCompute 2.0简介

前言在《数据库系统中的Code Generation技术介绍》一文中，我们阐述了代码的CPU执行效率对于大规模分布式OLAP系统的重要性。现在简单总结如下： OLAP系统中查询往往比较复杂，比如多表Join, 各种聚合函数以及窗口函数，其中涉及大量的Hash计算（比如采用Hash

5016 0 0

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxComputeSql性能调优

转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时，由于对产品的使用层面和执行层面了解程度不同，导致提交的任务执行时间过长、占用了较多集群资源；严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。合并整理部分性能提升方法方

8065 0 1

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute Optimizer之表达式约化

MaxCompute Optimizer之表达式约化文章转载自jiehongOptimizer是MaxCompute处理SQL任务的优化器，它的主旨于在根据关系代数的等价描述将中间的执行计划进一步地等价变换，以生成代价更优的执行计划。Optimizer内部有很多优化器，此

3862 0 0

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute 中的Code Generation技术简介

前言在《数据库系统中的Code Generation技术介绍》中，我们简单介绍了一下Code Generation技术及其在大规模OLAP系统，特别是大规模分布式OLAP系统中的重要性。MaxCompute采用了Code Generation技术来提高计算效率。在MaxCompute

4714 0 0

箫瑞2

|

SQL HIVE

|

博文

MaxCompute2.0性能评测：更强大、更高效之上的更快速

MaxCompute2.0(原Odps)：通过性能评测，MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上；MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。本次评测侧重于已发

6749 0 0

kilowu

|

SQL 存储分布式计算

|

博文

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件，拥有强大的计算能力，能够调度大量的节点做并行计算，同时对分布式计算中的failover，重试等均有一套行之有效的处理管理机制。而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑，在集团内外更是广为应用，在其上实现

13657 0 3

薛明2

|

SQL 分布式计算大数据

|

博文

使用 MaxCompute Studio 开发大数据应用

MaxCompute（原ODPS）是阿里云自主研发的分布式大数据处理平台。MaxCompute Studio 为开发者提供了良好的开发体验，本文将展开进行介绍。

15933 0 2

冶善

|

分布式计算 Hadoop Java

|

博文

如何在MaxCompute上运行HadoopMR作业

MaxCompute（原ODPS）有一套自己的MapReduce编程模型和接口，简单说来，这套接口的输入输出都是MaxCompute中的Table，处理的数据是以Record为组织形式的，它可以很好地描述Table中的数据处理过程，然而与社区的Hadoop相比，编程接口差异较大。Hadoop用户如果

5147 0 0

桑弦

|

人工智能分布式计算大数据

|

博文

倒计时1天！相约杭州云栖，相遇数据智能

2016杭州云栖大会盛大开启，与阿里云大数据一起相约杭州云栖，相遇数据智能！我们精心准备了四大智能看点，等你用一颗大数据的心，鞠一捧智能的“水”。

11542 1 6

隐林

|

存储分布式计算 MaxCompute

|

博文

MaxCompute 存储优化技巧

文章转自duzhuan本文主要介绍一些ODPS表操作的优化技巧，通过这些技巧，可以有效节省ODPS存储空间和计算量。合理设置分区表 ODPS支持分区表的概念，分区表指的是在创建表时指定的partition的分区空间，即指定表内的某几个字段作为分区列。在大多数情况下，用户可以将分区类比为文件系统

7157 0 1

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute MapReduce的7个性能优化策略

本文收录了一些MaxCompute MapReduce优化策略。

5676 0 2

隐林

|

分布式计算安全 MaxCompute

|

博文

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似，MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台，MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面：1、访问可追溯；2、更细粒度的访问控制；3、跨租户访问控制。访问可追溯

9145 0 0

隐林

|

SQL 分布式计算 Java

|

博文

MaxCompute 2.0 生态开放之路及最新发展

MaxCompute（原ODPS）是阿里云自主研发的分布式大数据处理系统。

7755 0 0

隐林

|

分布式计算 MaxCompute

|

博文

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一，它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log

6817 0 2

隐林

|

分布式计算 MaxCompute 流计算

|

博文

基于 MaxCompute 的极速的基因测序分析

转载自yizhuo 基因、测序、分析基因，生命的基本因素，是人类和其他生物的基础遗传物质。人有 23 对染色体，总共记录了大约 3Gb 个碱基（这里的 b 是 base，即碱基，可不是 bit，参考这里），每个位置上的碱基可能是 ATCG 中的一个。简单理解起来，就是有了这 3Gb 长的字

4817 1 1

楚项

|

分布式计算数据可视化 Java

|

博文

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置，教你如何快速实现MaxCompute的数据可视化

11233 0 3

大数据计算 MaxCompute

最新

博文

全部内容

免费试用

问答

电子书

学习

体验

视频

活动

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

基于OGG Datahub插件将Oracle数据同步上云

阿里云数加助力东润环能开启新能源大数据时代

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

【大数据技巧】数据导入到MaxCompute的技巧汇总

MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(二) 调度模型

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(四) NodeLabel调度

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

【大数据技巧】MaxCompute优化去重计算的性能

云端大规模视频分析： MaxCompute在视觉计算中的应用

解读基于数加的大数据仓库解决方案

数据无边界:非结构化数据在MaxCompute上的处理

生态与兼容：MaxCompute大数据生态集成和开发工具

MaxCompute SQL 2.0全新的计算引擎

MaxCompute Next

MaxCompute 2.0—从ODPS到MaxCompute

Python+大数据计算平台，PyODPS架构手把手教你搭建

双11数据大屏直播 / 双11作战大屏

变而不变：我看分布式系统发展和阿里实践

标签分类理论

Fuxi ServiceModeJob 多租户（Quota Group） 功能介绍

MaxCompute（原ODPS） 脑图 － 常用知识总结

基于阿里云数加平台的大数据Serverless实践

MaxCompute应用限制整理

2016Qcon上海之旅

一图胜千言，阿里云视觉大数据智能计算实践

MaxCompute分布式计算如何提升基因大数据处理速率？

MaxCompute（原ODPS）任务优化之列裁剪

云数据，大计算—海量日志数据分析与应用

MaxCompute Studio提升UDF和MapReduce开发体验

RODPS介绍

Vectorized Execution Engine in MaxCompute 2.0简介

MaxComputeSql性能调优

MaxCompute Optimizer之表达式约化

MaxCompute 中的Code Generation技术简介

MaxCompute2.0性能评测：更强大、更高效之上的更快速

MaxCompute上如何处理非结构化数据

使用 MaxCompute Studio 开发大数据应用

如何在MaxCompute上运行HadoopMR作业

倒计时1天！相约杭州云栖，相遇数据智能

MaxCompute 存储优化技巧

MaxCompute MapReduce的7个性能优化策略

MaxCompute数据安全机制

MaxCompute 2.0 生态开放之路及最新发展

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

基于 MaxCompute 的极速的基因测序分析

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

活跃用户

相关产品

Fuxi ServiceModeJob 多租户（Quota Group）功能介绍

MaxCompute（原ODPS）脑图－常用知识总结