开发者社区> 大数据与机器学习> 大数据计算 MaxCompute

大数据计算 MaxCompute

关注

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

0
今日
8268
内容
12
活动
348207
关注
|
SQL 分布式计算 大数据
|

最好用的工兵铲—MaxCompute Studio,来了解下!

摘要: 在大数据计算北京高端峰会上,阿里云计算平台高级专家薛明深入介绍了阿里巴巴大数据计算平台开发利器—MaxCompute Studio。一站式的 IDE,可以快速完成数据浏览和管理、进行基于 SQL 和 UDF 的数据开发,更具备完善的作业分析和优化辅助等功能。

5035 0
|
存储 分布式计算 算法
|

MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用

摘要 大数据计算服务MaxCompute是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案目前已在阿里巴巴内部得到大规模应用。来自阿里妈妈基础平台大规模数据处理技术专家向大家分享了MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用经验。

5135 0
|
SQL 分布式计算 安全
|

MaxCompute产品最新进展 -- 从马力到计算力

摘要本文从马力作为功率衡量标准为切入点介绍了大数据领域的计算力衡量标准TPCBB以及MaxCompute2.0在Big Bench上的卓越表现。同时详细地分享了取得优异成绩背后的产品在最新有哪些进展帮助大家全面的了解MaxCumpute2.0。

3766 0
|
SQL Web App开发 分布式计算
|

阿里云MaxCompute 2018-5月刊

5月,MaxCompute提供全表扫描的设置操作,可允许或禁止全表扫描;支持OSS上的Hive文件格式;支持OSS压缩格式GZIP。。。更多新功能新体验,欢迎阅读本文了解。

3019 0
|
JSON 分布式计算 监控
|

阿里云大数据MaxCompute基于UDTF解析JSON日志的案例

因为MaxCompute提供的系统函数有限,所以平台提供了强大的自定义函数(UDF)来进行复杂的数据处理,因为MaxCompute的沙箱机制,所以解析JSON日志串的时候需要使用GSON来进行解析,本例中原始数据可能是从其他DB通过数据集成同步到MaxCompute平台上的,所以MaxComput.

2253 0
|
分布式计算 Java DataX
|

MaxCompute读取分析OSS非结构化数据的实践经验总结

1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。

3213 0
|
分布式计算 大数据 MaxCompute
|

“帮助企业做好MaxCompute成本优化的实践” 主题分享 6月21日 18:30不见不散

在这个初夏,MaxCompute与大数据开发者们共同开启 “因计算,共成长” 分享季。 第一季《MaxCompute开发实战,爽爽不油腻》,共四次主题分享,每周二 18:30-19:00 “MaxCompute开发者交流钉钉群” 在这里等你。

2736 0
|
分布式计算 大数据 MaxCompute
|

MaxCompute携手ofo小黄车与阿里妈妈—邀你共赴大数据计算北京高端峰会(含技术干货整理)

ofo小黄车如何通过MaxCompute轻松处理每天千万订单,提升线下运营效率50%以上,提升整体运行效率76%? 阿里妈妈在搜索广告、定向广告、达摩盘、报表和BI分析等常见场景下是如何使用MaxCompute的? Noxmobi自建业界领先的DSP、SSP、ADX等广告系统,其中最重要的底层数.

4232 0
|
存储 分布式计算 大数据
|

MaxCompute助力OSS支持EB级计算力

一、 MaxCompute是什么 你的OSS数据是否作堆积在一旁沉睡已久存储成本变为企业负担你是否想唤醒沉睡的数据驱动你的业务前行MaxCompute可以帮助你高效且低成本的解决这些问题通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。

4835 0
|
分布式计算 MaxCompute Python
|

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

背景 [PyODPS DataFrame]http://pyodps.readthedocs.io/zh_CN/latest/) 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行。

14771 2
|
SQL 分布式计算 DataWorks
|

DataWorks支持PyODPS类型任务

昨天,DataWorks推出了PYODPS任务类型,集成了Maxcompute的Python SDK,可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute,也可以设置调度任务来处理数据,提高数据开发效率。

6685 0
|
存储 分布式计算 数据处理
|

MaxCompute(ODPS)上处理非结构化数据的Best Practice

随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取OSS数据进行计算处理; 本文:MaxCompute(ODPS)上处理非结构化数据的Best Practice。

4940 0
|
SQL 分布式计算 Hadoop
|

Optimizing Complex Data Distribution in MaxCompute

For a long time, data distribution has been an issue in the field of Big Data processing. Unfortunately, the Big Data processing systems that are popular today do not satisfactorily solve the issue.

1851 0
|
分布式计算 关系型数据库 测试技术
|

DRDS到MaxCompute(原ODPS)数据归档性能优化测试

2984 0
|
人工智能 分布式计算 大数据
|

全球云端数据仓库领导者 MaxCompute 将于本月10日正式开服美东节点

作为全球云端数据仓库的领导者,阿里云MaxCompute为满足更多客户的业务需求,不断加快全球化部署的节奏。本月10日,美东(弗吉尼亚)节点会正式上线。届时,将会以最新版本产品向用户提供大数据计算资源和能力

2671 0
|
SQL 分布式计算 DataWorks
|

为了让开发者写MaxCompute SQL更爽,DataWorks 增强SQL 编辑器功能

众所周知,数据开发和分析的同学每天都要花大量时间写MaxCompute SQL;Dataworks作为数据开发的IDE直接影响着大家的开发效率,这次新上线的Dataworks我们在编辑体验上做了很多工作,在前端实现MaxCompute SQL和编辑器参数等扩展语法的AST解析,并实现更好更智能的代

6234 0
|
人工智能 分布式计算 大数据
|

全新一代人工智能计算引擎MaxCompute杭州开服,强化阿里云大数据能力,比肩谷歌微软

3月22日,阿里云将正式开服售卖华东1(杭州)节点的大数据计算服务MaxCompute,以进一步提升对华东区域客户服务的响应速度,推动杭州大数据、人工智能产业的加速发展。

3532 0
|
分布式计算 大数据 MaxCompute
|

中国唯一,阿里云进入Forrester大数据服务榜单

日前,全球权威调研机构Forrester发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。

6000 0
|
分布式计算 搜索推荐 OLAP
|

基于MaxCompute构建企业用户画像(用户标签的制作)

在数据化营销时代,数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值,也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值?在营销里面我们都谈精准营销,谈用户画像,那用户画像到底如何构建,用户的标签如何开发?本示例给与最简单的demo,那个大家清楚认识基于MaxCompute如何构建企业用户标签。

8899 0
|
存储 关系型数据库 监控
|

释放存储与计算压力,MySQL用户升级到EB级数据仓库MaxCompute攻略

在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步催生了大数据的价值。廉价的存储和计算,高效的海量数据处理,我们已经进入了“大数据时代”。

5433 0
|
SQL 分布式计算 监控
|

MaxCompute JOIN优化小结

4792 0
|
分布式计算 DataWorks 测试技术
|

如何通过Dataworks禁止MaxCompute 子账号跨Project访问

之前有很多DataWorks用户问MaxCompute访问权限问题,比如子账号为什么可以增删查别人在别的项目创建的表,即使这个子账号并没有加入那个项目 。 今天手把手教大家实现子账号授权并关闭跨Project的数据访问权限。

3695 0
|
分布式计算 安全 大数据
|

数据保护伞—为MaxCompute平台数据安全保驾护航

数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。

9180 0
|
关系型数据库 MySQL 数据库
|

解析DataWorks数据集成中测试连通性失败问题

大家好,这里和大家分享的是DataWorks数据集成中测试连通性失败的排查思路。与测试连通性成功与否的相关因素有很多,本文按照多个因素逐步排查,最终解决问题,希望大家以后再遇到此类问题,请参考此文,相信能够顺利解决您的问题。

5006 0
|
SQL 分布式计算 DataWorks
|

离线计算中的幂等和DataWorks中的相关事项

概念 幂等这个词在软件研发中经常被提到。比如消息发送时不应该同时给同个用户推送多次相同的消息,针对同一笔交易的付款也不应该在重试过程中扣多次钱。曾见过一个案例,有个对于一个单据的确认模块没有考虑到幂等性,导致对应的单据有两条确认记录。

3495 0
|
分布式计算 监控 BI
|

基于阿里云MaxCompute实现游戏数据运营

一、总览 一个游戏/系统的业务数据分析,总体可以分为图示的几个关键步骤:   1、数据采集:通过SDK埋点或者服务端的方式获取业务数据,并通过分布式日志收集系统,将各个服务器中的数据收集起来并送到指定的地方去,比如HDFS等;(注:本文Demo中,使用flume,也可选用logstash、Flue.

4837 0
|
SQL 分布式计算 大数据
|

邀您参与阿里云MaxCompute2.0最佳实践征文活动

DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云大数据计算服务MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

2967 0
|
分布式计算 资源调度 安全
|

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要:在2017年云栖大会•北京峰会的大数据专场中,来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中,李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题;然后,他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

11940 0
|
分布式计算 搜索推荐 大数据
|

基于MaxCompute搭建社交好友推荐系统

摘要:本次由阿里云驻云科技资深架构师翟永东带来了“基于MaxCompute搭建社交好友推荐系统”为主题的分享,主要对大数据在好友推荐系统中的应用、好友推荐系统的分析模型、好友推荐系统在阿里云上的实现方式和MaxCompute技术进行了精彩的介绍。

3792 0
|
分布式计算 MaxCompute
|

Alibaba Cloud MaxCompute to Be Available in Indonesia Which Will Serve as the 12th Global Data Region

On February 9, 2018, Alibaba Cloud MaxCompute will be officially available in Jakarta. By then, Indonesia will be the 12th region in MaxCompute global.

2567 0
|
SQL 分布式计算 大数据
|

【新功能】MaxCompoute禁止Full Scan功能开放

2018年1月10日,MaxCompute禁止Full Scan功能开放。对于新创建的project默认情况下执行sql时,针对该project里的分区表不允许全表扫描,必须有分区条件指定需要扫描的分区。

5932 0
|
运维 分布式计算 大数据
|

高德地图基于阿里云MaxCompute的最佳实践

云计算带来的变革不言而喻,作为一种新型的IT交付模式,切实为企业节省IT成本、加快IT与企业业务结合效率、提升创新能力、加强管理水平以及增强系统本身的可靠性等方面提供巨大支持,是企业实现新发展的重要途径,它已然成为全球IT产业的主流声音。

8844 0
|
存储 分布式计算 监控
|

MaxCompute预付费资源监控工具-CU管家使用教程

MaxCompute管家使用前提 1、用户购买了 MaxCompute 预付费CU资源,60CU以上的用户(备注:CU过小无法发挥计算资源及管家的优势)。 2、支持区域,MaxCompute 华北2北京、华东2上海、华南1深圳 3个Region的用户。

4344 0
|
分布式计算 MaxCompute
|

MaxCompute优化系列-如何解决`无效Join` ?

无效Join 比如这个例子: insert overwrite table my_table partition(ds='${bizdate}')  select      t1.task_type,     sum(t1.

2617 0
|
分布式计算 MaxCompute
|

MaxCompute优化系列-如何使用`MAPJOIN` ?

MAPJOIN 当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。 MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。

9661 0
|
人工智能 分布式计算 关系型数据库
|

【你离完成一次MaxCompute计算任务仅剩三步】Step1 通过DataWorks控制台创建MaxCompute项目空间

开通MaxCompute后,请通过DataWorks控制台创建MaxCompute项目空间

4024 0
|
存储 分布式计算 运维
|

MaxCompute预付费资源监控工具-CU管家

很多MaxCompute预付费用户,经常会问到我,我买了150CU,但是很多作业还是要排队,到底是哪些任务占满了资源,能否把让这些不重要的任务不干扰重要生产任务。 今天为大家带来了MaxCompute CU管家公测版,我们看看它具备哪些实用功能,可以帮到运维人员。

3360 0
|
SQL 分布式计算 Java
|

MaxCompute计费命令详解

最近有一些海外企业,在做MaxCompute技术选型,海外客户非常关心收费细节,小编会经常被问到哪些命令是收费的。比如删除命令收不收费,更新数据收不收费。

3054 0
|
分布式计算 MaxCompute
|

Alibaba Cloud MaxCompute - Bringing Data to Life

2819 0
|
人工智能 分布式计算 大数据
|

阿里云MaxCompute印度开服,加速大数据产业升级

2018年1月18日,阿里云大数据计算服务MaxCompute将在印度正式开服。通过MaxCompute强大的计算能力,阿里云将加速印度大数据产业的全面升级。

2912 0
|
新零售 分布式计算 大数据
|

阿里云MaxCompute,用计算力让数据发声

计算的价值绝不止计算本身,而是让本不会说话的数据发声。 从玛雅历法到圆周率,从万有引力定律到二进制,从固化的物体到虚拟的思维都由数据注入。阿里云大数据计算服务MaxCompute以技术驱动产品,用计算力让数据发声。

5289 0
|
存储 分布式计算 大数据
|

不得不看!推荐企业使用华北2(北京)大数据产品MaxCompute的八大理由

2017年11月1日,阿里云计算宣布大数据计算服务MaxCompute北京节点正式对外开放运营,这是继杭州、青岛之外,阿里云在全球对外服务的第三个数据中心。阿里云方面表示,北京数据中心将更好地服务众多互联网公司和世界级企业总部。

6354 0
|
Web App开发 存储 分布式计算
|

基于TableStore/MaxCompute的数据采集分析系统介绍

摘要 在互联网高度发达的今天,ipad、手机等智能终端设备随处可见,运行在其中的APP、网站也非常多,如何采集终端数据进行分析,提升软件的品质非常重要,例如PV/UV统计、用户行为数据统计与分析等。虽然场景简单,但是数据量大,对系统的吞吐量、实时性、分析能力、查询能力都有较高的要求,搭建起来并不容易。

4963 0
|
存储 分布式计算 算法
|

MaxCompute复杂数据分布的查询优化实践

2260 0
|
SQL 分布式计算 MaxCompute
|

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

9596 0
|
分布式计算 MaxCompute Python
|

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。

7692 0
我要发布