大数据与机器学习-博文-阿里云开发者社区

隐林

|

SQL 算法安全

|

博文

odps是什么?

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

79357 133 139

来自：大数据计算 MaxCompute 版块

付空

|

消息中间件存储供应链

|

博文

数据仓库介绍与实时数仓案例

1.数据仓库简介数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

45888 238 254

来自：实时计算 Flink 版块

隐林

|

分布式计算 MaxCompute BI

|

博文

【转载】时隔一年多，我又用起了 Superset

去年 6 月份在流利说提离职后，leader 问我为什么要走。我说，流利说有很健全的数据处理基础设施，但这不是所有的公司都会有的条件，所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

18433 82 83

来自：大数据计算 MaxCompute 版块

鱼跟猫

|

消息中间件关系型数据库 Kafka

|

博文

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16786 1 3

来自：开源大数据平台 E-MapReduce 版块

隐林

|

机器学习/深度学习算法大数据

|

博文

阿里云机器学习平台的思考

最近读了阿里的《大数据之路-阿里巴巴大数据实践》，对于其机器学习平台也蛮感兴趣，正好阿里出了本新书《解析阿里云机器学习平台》，顺便读了下，感触也不少，结合最近团队机器学习的一些思考，特别在此分享于你。

13533 0 2

来自：大数据计算 MaxCompute 版块

曾安祥仁重

|

机器学习/深度学习分布式计算算法

|

博文

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍，实现体验和数据上的双赢。

16753 2 8

来自：智能搜索推荐版块

祎休

|

Web App开发 SQL 分布式计算

|

博文

Amazon Redshift数据迁移到MaxCompute

10463 2 2

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算资源调度消息中间件

|

博文

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

在 2017 年上半年以前，TalkingData 的 App Analytics 和 Game Analytics 两个产品，流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度，对于不同的任务只需要实现一个 changer 链即可，并且支持水平扩展，性能尚可，曾经可以满足业务需求。

10262 2 2

来自：实时计算 Flink 版块

寒沙牧

|

存储监控 Java

|

博文

Flume NG 简介及配置实战

最近在做日志采集相关的开发，了解了flume原理和实现，转载一篇文章，一起学习。

10199 0 0

来自：开源大数据平台 E-MapReduce 版块

勿烦

|

SQL 数据库 HIVE

|

博文

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述，包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

11608 1 2

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

12108 1 11

来自：大数据计算 MaxCompute 版块

jasonli4

|

存储消息中间件监控

|

博文

基于Flink的实时日志分析系统实践

11988 2 4

来自：实时计算 Flink 版块

上单

|

SQL 分布式计算 JavaScript

|

博文

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful，small is powerful

10083 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算资源调度

|

博文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop？ Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运算和存储。

11297 59 60

来自：大数据计算 MaxCompute 版块

场景研读

|

SQL 分布式计算大数据

|

博文

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

回顾大数据技术领域大事件，最早可追溯到06年Hadoop的正式启动，而环顾四下，围绕着数据库及数据处理引擎，业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上，阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑：基于代价的优化器》的分享，为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

8229 0 3

来自：大数据计算 MaxCompute 版块

米尔。。。

|

JSON 前端开发 JavaScript

|

博文

数据过滤器使用法则

相信很多企业版用户已经发现编辑器出现了一个新功能「数据过滤器」，然而打开这个功能之后，又不知道怎么用。今天我们就来简单入门一下这个新功能。

8846 0 1

来自：数据可视化DataV 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦！

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

7516 0 2

来自：大数据计算 MaxCompute 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9477 0 1

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度测试技术 Apache

|

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

10816 1 2

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

大数据分布式计算流计算

|

博文

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

8785 0 0

来自：实时计算 Flink 版块

鱼跟猫

|

存储消息中间件大数据

|

博文

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据，覆盖Broker，Consumer，Producer，Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息，可以很好地监控Broker运行状态。

6920 0 0

来自：开源大数据平台 E-MapReduce 版块

祎休

|

SQL 分布式计算大数据

|

博文

MaxCompute（原ODPS）开发入门指南——数据开发工具篇

大家在使用大数据计算服务MaxCompute时，最头疼就是我现在已有的数据如何快速上云？我的日志数据如何采集到MaxCompute上？等等。。。具体详见《MaxCompute（原ODPS）开发入门指南——数据上云篇》。

8245 0 2

来自：大数据计算 MaxCompute 版块

驿云

|

定位技术数据格式

|

博文

基础平面地图——地图数据（散点、呼吸气泡、飞线等）不显示问题

地图数据（散点、呼吸气泡、飞线等）不显示问题：经纬度放反、API返回结果或者SQL查询结果与组件所需数据格式不匹配、数据过滤器、跨域问题。

8763 0 2

来自：数据可视化DataV 版块

上单

|

移动开发分布式计算大数据

|

博文

阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

看到很多用户经常会问如何对分组内进行排序。官方文档：https://help.aliyun.com/document_detail/34994.html?spm=5176.doc27891.6.611.

7465 0 2

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算 MaxCompute 大数据

|

博文

唱吧基于 MaxCompute 的大数据之路

在使用 MaxCompute之前，唱吧使用自建体系来存储处理各端收集来的日志数据，包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长，积累的历史数据越来越多，来自其他部门同事的需求越来越复杂，自建体系逐渐暴露出了能力上的短板。

6571 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

Web App开发 SQL 分布式计算

|

博文

阿里云MaxCompute 2019-4月刊

4月新功能发布，精彩技术好文推荐，5月线上线下活动抢先知道，尽在4月刊。

6000 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算监控搜索推荐

|

博文

MaxCompute帮你五步实现用户画像的数据加工

6592 0 2

来自：大数据计算 MaxCompute 版块

付空

|

存储大数据流计算

|

博文

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于Blink为新商业调控打造实时大数据交互查询服务从IT到DT、从电商到新商业，阿里巴巴的每个细胞都存在大数据的DNA，如何挖掘大数据的价值成为抢占未来先机的金钥匙！传统的大数据开发主要基于离线计算平台MaxCompute（ODPS）进行天级别、小时级别的批量数据分析，但近些年随着618、99.

7269 0 0

来自：实时计算 Flink 版块

隐林

|

消息中间件分布式计算 Kafka

|

博文

基于MaxCompute构建Noxmobi全球化精准营销系统

摘要：大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

5830 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

SQL 分布式计算大数据

|

博文

【新功能】MaxCompoute禁止Full Scan功能开放

2018年1月10日，MaxCompute禁止Full Scan功能开放。对于新创建的project默认情况下执行sql时，针对该project里的分区表不允许全表扫描，必须有分区条件指定需要扫描的分区。

6140 0 0

来自：大数据计算 MaxCompute 版块

耿江涛

|

JSON 分布式计算 MaxCompute

|

博文

MaxCompute中使用OSS外部表读取JSON数据

本文介绍了MaxCompute中使用OSS外部表读取JSON文件的数据，以及需要设立的flag。

5997 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算大数据

|

博文

MaxCompute助力OSS支持EB级计算力

一、 MaxCompute是什么你的OSS数据是否作堆积在一旁沉睡已久存储成本变为企业负担你是否想唤醒沉睡的数据驱动你的业务前行MaxCompute可以帮助你高效且低成本的解决这些问题通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。

5045 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API Apache

|

博文

Apache Flink 零基础入门（三）：DataStream API 编程

本次课程将首先介绍 Flink 开发中比较核心的 DataStream API 。我们首先将回顾分布式流处理的一些基本概念，这些概念对于理解实际的 DataStream API 有非常大的作用。然后，我们将详细介绍 DataStream API 的设计，最后我们将通过一个例子来演示 DataStre

7528 0 1

来自：实时计算 Flink 版块

云计算小粉

|

SQL 分布式计算大数据

|

博文

生态与兼容：MaxCompute大数据生态集成和开发工具

本文PPT来自阿里云数据事业部高级专家薛明/艺卓于10月15日在2016年杭州云栖大会上发表的《MaxCompute大数据生态集成和开发工具》。

4998 0 0

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习存储 TensorFlow

|

博文

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

6220 58 58

来自：人工智能平台PAI 版块

隐林

|

存储分布式计算数据处理

|

博文

MaxCompute(ODPS)上处理非结构化数据的Best Practice

随着MaxCompute（ODPS）2.0的上线，新增的非结构化数据处理框架也推出一系列的介绍文章，包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍，侧重介绍读取OSS数据进行计算处理；本文：MaxCompute(ODPS)上处理非结构化数据的Best Practice。

5264 0 1

来自：大数据计算 MaxCompute 版块

冶善

|

分布式计算监控 MaxCompute

|

博文

Docker时代——如何实现日志数据一键上云

1 准备工作 1.1 开通MaxCompute服务参考使用MaxCompute的准备工作 1.2 开通Datahub服务进入Datahub Web控制台，创建project（注意：首次使用的用户需要申请开通） 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法，您可以点击此处查看。

4598 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

机器学习/深度学习分布式计算算法

|

博文

袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

随着大数据技术的蓬勃发展，现在关于大数据技术在各行各业的实践也如火如荼。那么当大数据技术遇到光伏行业会产生何样的化学反应呢？下面就和大家一起分享一下袋鼠云是如何使用阿里云数加平台和机器学习平台助力光伏行业的。

4330 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

机器学习/深度学习物联网量子技术

|

博文

MIT评出全球十大突破性技术阿里巴巴连摘两项

2月21日下午，美国权威科学杂志《麻省理工科技评论》(MIT Technology Review)发布2017年全球十大突破性技术榜单。在与Google、微软、IBM等科技巨头的较量中，阿里巴巴分别入选“强化学习”和“刷脸支付”两大突破性技术榜单。

4442 0 0

来自：大数据计算 MaxCompute 版块

YuuuZeee

|

SQL 弹性计算分布式计算

|

博文

5块钱低成本阿里云大数据生态协同过滤推荐系统实战

前情提要人工智能千千万，没法落地都白干。自从上次老司机用神经网络训练了热狗识别模型以后，群众们表示想看一波更加接地气，最好是那种能10分钟上手，一辈子受用的模型。这次，我们就通过某著名电商公司的公开数据集，在阿里云大数据生态之下快速构建一个基于协同过滤的推荐系统！推荐系统大家都不陌生，早就已经和大家的生活息息相关。

5653 0 0

来自：人工智能平台PAI 版块

晋恒

|

分布式计算 MaxCompute 大数据

|

博文

云数据仓库MaxCompute最佳实践之数据上云 | 2019飞天大数据平台技术公开课第五季

秋日杲杲，大数据技术公开课第五季开播！本季主题 “云数据仓库 MaxCompute 最佳实践之数据上云”。10.22日-11.12日，每周二 19:00，一起学习大数据。

5249 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据数据挖掘

|

博文

数据让生意更简单，网聚宝创业团队利用数加快速打造核心业务竞争力，在激烈的市场竞争中弯道超车。

网聚宝基于阿里云数加及基础云服务等产品，向客户提供全域大数据SaaS应用，向二次开发者、集成商及合作伙伴提供PaaS API以及DaaS API，从而为客户、合作伙伴、集成商、二次开发者进行全面的大数据赋能。

4374 0 0

来自：大数据计算 MaxCompute 版块

付帅

|

消息中间件分布式计算 DataWorks

|

博文

Kafka数据迁移MaxCompute最佳实践

本文向您详细介绍如何使用DataWorks数据同步功能，将Kafka集群上的数据迁移到阿里云MaxCompute大数据计算服务。

4345 0 1

来自：大数据计算 MaxCompute 版块

halcyon

|

SQL 分布式计算大数据

|

博文

MaxCompute应用限制整理

好多同学在使用MaxCompute时，对产品的应用限制并不了解。这里，我们将给出MaxCompute产品的详细应用限制列表。如有遗漏，还请大家补充：命名规范：原则上，项目(Project)，表(Table)，函数(Function)，资源(Resource)，分区(Partition

4612 0 1

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API Apache

|

博文

Apache Flink 零基础入门（一）：基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成，由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期，持续推送。

14513 1 2

来自：实时计算 Flink 版块

隐林

|

博文

与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。

“最早是新业务要做，但是买服务器来不及，管理员没到位，而且新业务的成本很高，是否能成功也是未知，因此明源决定采用阿里云，等资金和人到位再搬到自己内部。然而就是这种误打误撞，却让明源抓住了一个很好的机会走在了正确的轨道上。

3782 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

数据可视化大数据

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 报告组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的报告组件功能进行详细解读。

4630 0 0

来自：检索分析服务 Elasticsearch版版块

傲海

|

算法搜索推荐安全

|

博文

DataWorks调度配置最佳实战

DataWorks基于MaxCompute作为核心的计算、存储引擎，提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks，可对数据进行数据传输、数据转换等相关操作，从不同的数据存储引入数据，对数据进行转化处理，最后将数据提取到其他数据系统。

5424 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算供应链安全

|

博文

30秒在线卖出3000套房，对于云系统来说只是小意思！

数字经济时代，互联网改变着我们生活的方方面面，同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展，以及传统行业转型升级的日益深化，二者之间的关系变得愈发紧密。

3602 0 0

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

odps是什么?

数据仓库介绍与实时数仓案例

【转载】时隔一年多，我又用起了 Superset

如何使用Kafka Connect实现同步RDS binlog数据

阿里云机器学习平台的思考

凑单算法——基于Graph Embedding的bundle mining

Amazon Redshift数据迁移到MaxCompute

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flume NG 简介及配置实战

SQL优化器原理 - 查询优化器综述

【大数据技巧】MaxCompute中实现IP地址归属地转换

基于Flink的实时日志分析系统实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

阿里巴巴飞天大数据架构体系与Hadoop生态系统

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

数据过滤器使用法则

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦！

MaxCompute 学习计划(二)

YARN中的CPU资源隔离-CGroups

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

E-MapReduce上如何采集Kafka客户端Metrics

MaxCompute（原ODPS）开发入门指南——数据开发工具篇

基础平面地图——地图数据（散点、呼吸气泡、飞线等）不显示问题

阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

唱吧基于 MaxCompute 的大数据之路

阿里云MaxCompute 2019-4月刊

MaxCompute帮你五步实现用户画像的数据加工

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于MaxCompute构建Noxmobi全球化精准营销系统

【新功能】MaxCompoute禁止Full Scan功能开放

MaxCompute中使用OSS外部表读取JSON数据

MaxCompute助力OSS支持EB级计算力

Apache Flink 零基础入门（三）：DataStream API 编程

生态与兼容：MaxCompute大数据生态集成和开发工具

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

MaxCompute(ODPS)上处理非结构化数据的Best Practice

Docker时代——如何实现日志数据一键上云

袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

MIT评出全球十大突破性技术 阿里巴巴连摘两项

5块钱低成本阿里云大数据生态协同过滤推荐系统实战

云数据仓库MaxCompute最佳实践之数据上云 | 2019飞天大数据平台技术公开课第五季

数据让生意更简单，网聚宝创业团队利用数加快速打造核心业务竞争力，在激烈的市场竞争中弯道超车。

Kafka数据迁移MaxCompute最佳实践

MaxCompute应用限制整理

Apache Flink 零基础入门（一）：基础概念解析

与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。

【X-Pack解读】阿里云Elasticsearch X-Pack 报告组件功能详解

推荐系统之业务架构总览

DataWorks调度配置最佳实战

30秒在线卖出3000套房，对于云系统来说只是小意思！

大数据与机器学习

活跃用户

相关产品

MIT评出全球十大突破性技术阿里巴巴连摘两项