大数据与机器学习-博文-阿里云开发者社区

隐林

|

SQL 算法安全

|

博文

odps是什么?

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

79288 133 139

来自：大数据计算 MaxCompute 版块

尼不要逗了

|

分布式计算算法大数据

|

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

26743 71 72

来自：开源大数据平台 E-MapReduce 版块

李寻弥-27988

|

数据可视化

|

博文

DataV接入ECharts图表库可视化利器强强联手

两个扛把子级产品的结合，而且文末有彩蛋。

25917 100 104

来自：数据可视化DataV 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业（SQL、MR等）执行慢的原因，今天带大家一起学习自排查方法。 1、wait wait ，job querying 遇到这个提示，就是资源出现了排队，如果你是后付费用户，那就是整个后付费的共享池已经没有富余的资源了，要等前一个作业处理完。

27819 5 7

来自：大数据计算 MaxCompute 版块

yunqi_share

|

云栖大会

|

博文

2017杭州云栖大会FAQ（持续更新中）

2017杭州云栖大会将于10月11-14日在杭州云栖小镇举办，作为全球最具影响力的科技展会之一，今年的云栖大会规模更大，内容也更丰富。为了帮助大家解决报名、参会中的一些问题，小编专门整理了下大会相关的FAQ，供大家参考。

19635 129 164

来自：大数据计算 MaxCompute 版块

工程师甲

|

监控数据可视化数据挖掘

|

博文

Kibana：数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana，用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外，还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

20785 6 7

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

人工智能算法框架/工具流计算

|

博文

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

在这次访谈中，贾扬清向我们透露了他加入阿里的原因，并对他目前在阿里主要负责的工作做了详细说明，他不仅回顾了过去 6 年 AI 框架领域发生的变化，也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验，贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议，对于 AI 从业者来

18464 2 10

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习自然语言处理算法

|

博文

【玩转数据系列六】文本分析算法实现新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式，消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标，完全由机器智能化实现。

20260 1 3

来自：人工智能平台PAI 版块

隐林

|

存储分布式计算监控

|

博文

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端，然后分天、分小时的展开数据分析作业，分析结果再导入数据库和报表系统，最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍，整个过程中数据量庞大，且计算复杂，这对云平台的大数据能力、生态完整性和开放性提

17363 4 4

来自：大数据计算 MaxCompute 版块

隐林

|

弹性计算分布式计算 Hadoop

|

博文

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

想用阿里云数加·大数据计算服务（MaxCompute），但是现在数据还在hadoop上，怎么办？别烦恼，跟着我们走，来一次MaxCompute零基础数据迁移之旅～Let’s Go！

18233 0 0

来自：大数据计算 MaxCompute 版块

冶善

|

分布式计算关系型数据库大数据

|

博文

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

本文用到的阿里云数加－大数据计算服务MaxCompute产品地址：https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具，纯java实现，可以运行于Windows, Unix, Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。

21411 3 21

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算资源调度

|

博文

MaxCompute常见错误汇总（更新ing）

从今天开始，小编会为大家陆续解读MaxCompute常见问题，帮助大家快速上手MaxCompute，玩转大数据计算平台。

24924 8 9

来自：大数据计算 MaxCompute 版块

jaredguo

|

搜索推荐 API 开发者

|

博文

OpenSearch：轻松构建大数据搜索服务

随着互联网数据规模的爆炸式增长，如何从海量的历史、实时数据中快速获取有用信息，变得越来越具有挑战性。搜索是获取信息最高效的途径之一，因此也是各类网站、应用的基础标配功能。开发者想在自己的产品中实现搜索功能一般都是基于某个开源搜索系统(如ElasticSearch、Solr、Sphinx

17886 3 5

来自：智能搜索推荐版块

鱼跟猫

|

消息中间件关系型数据库 Kafka

|

博文

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16776 1 3

来自：开源大数据平台 E-MapReduce 版块

付空

|

新零售搜索推荐调度

|

博文

通过Flink实时构建搜索引擎的索引

1.背景介绍搜索引擎的出现大大降低了人们寻找信息的难度，已经深入到生活与工作的方方面面，简单列举几个应用如下：互联网搜索，如谷歌，百度等；垂直搜索，如淘宝、天猫的商品搜索；站内搜索，各个内容网站提供的站内搜索服务；企业内部搜索，员工查询企业内部信息；广告投放，根据投放上下文检索出对应的广告主和广告内容；搜索引擎的关键是让用户找到其所需信息，其整体架构如下：从图示可知，一个搜索引擎从大的方面来看主要包括两部分，一部分是提供在线的搜索服务，一部分要把原始数据已离线的方式建立索引，建立索引是信息可搜索的前提。

18633 160 162

来自：实时计算 Flink 版块

上单

|

存储分布式计算监控

|

博文

大数据阿里云产品的简单介绍理解

很多人问，大数据是什么。一个时尚的技术名词，一个互联网时代的标志。给人高端大气上档次的感觉，很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。

16139 2 3

来自：大数据计算 MaxCompute 版块

jasonli4

|

消息中间件 Web App开发监控

|

博文

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

1.大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。

25973 17 25

来自：实时计算 Flink 版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

17401 58 58

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

机器学习/深度学习分布式计算大数据

|

博文

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

13917 0 0

来自：大数据计算 MaxCompute 版块

曾xiaoyi

|

算法搜索推荐前端开发

|

博文

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会（ATA）精选集 0. 前言何为双链路实时计算体系？微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路相比微观实时，宏观实时的对象粒度更粗，更上层 a) 以实时效果为目标，基于bandit learning的实

16542 2 3

来自：智能搜索推荐版块

付空

|

运维流计算

|

博文

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

29563 3 6

来自：实时计算 Flink 版块

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

13671 1 1

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储分布式计算监控

|

博文

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

梨视频由前澎湃新闻掌门人邱兵创立。在上线之前，它就获得了黎瑞刚华人文化近1亿美元投资，旗下《微辣》栏目总播放量已经超过4亿，并在上线1个月后获得“年度视频新媒体”大奖。这样一款脱胎于传统媒体的创业型短视频软件，在视频领域异军突起，不仅让内人士在感叹梨视频内容生产力之强大的同时，也诧异于是谁在

14025 0 2

来自：开源大数据平台 E-MapReduce 版块

曾安祥仁重

|

机器学习/深度学习分布式计算算法

|

博文

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍，实现体验和数据上的双赢。

16739 2 8

来自：智能搜索推荐版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

16540 0 1

来自：开源大数据平台 E-MapReduce 版块

墨青

|

机器学习/深度学习自然语言处理算法

|

博文

DL应用：query生成和query推荐

引言　　在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中，序列到序列的问题已经有太多大牛研究了，也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架，刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16533 3 3

来自：智能搜索推荐版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

阿里云数加MaxCompute购买咨询钉钉群

为企业解答阿里云MaxCompute大数据计算产品购买问题。

14724 0 2

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

分布式计算数据处理 API

|

博文

流计算精品翻译: The Dataflow Model

我们提出了Dataflow模型，并详细地阐述了它的语义，设计的核心原则，以及在实践开发过程中对模型的检验。

20447 1 2

来自：实时计算 Flink 版块

梅熙

|

SQL 分布式计算网络安全

|

博文

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue！

14330 23 27

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Apache

|

博文

接着！！Apache Flink 全领域干货合集（持续更新）

Apache Flink 下一代开源大数据计算引擎，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境，对各种大小的数据规模进行快速计算。Flink 1.9.0 发布，在批流融合与功能特性上有重大更新，本专题将持续更新新增特性的具体说明及全领域干货。

17157 0 2

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习算法搜索推荐

|

博文

基于对象特征的推荐

（本实验选用数据为真实电商脱敏数据，仅用于学习，请勿商用）在上一期基于协同过滤的的推荐场景中，我们介绍了如何通过PAI快速搭建一个基于协同过滤方案的推荐系统，这一节会介绍一些如何基于推荐对象特征的推荐方法。

12233 1 3

来自：人工智能平台PAI 版块

云栖小秘书

|

SQL 分布式计算大数据

|

博文

高可用大数据计算服务如何持续发布和演进

票选最美云上大数据暨大数据技术峰会上，阿里云飞天一部计算平台高级专家无庸为大家带来题为“高可用大数据计算服务如何持续发布和演进”的演讲。本文先对MaxCompute架构进行了介绍，接着重点介绍在大数据计算服务下，高可用服务持续改进和发布的工具，包括Playback工具、Flighting工具和灰度上线、细粒度回滚等。

11358 1 2

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习算法对象存储

|

博文

机器学习PAI全新功效——实时新闻热点Online Learning实践

(本实验会用到流式机器学习算法，正处于邀测状态，需要申请开通)PAI地址：https://data.aliyun.com/product/learn流式机器学习算法申请：https://data.aliyun.com/paionlinelearning打开新闻客户端，往往会收到热点新闻推送相关的内容。

15527 0 0

来自：人工智能平台PAI 版块

桑弦

|

人工智能分布式计算大数据

|

博文

倒计时1天！相约杭州云栖，相遇数据智能

2016杭州云栖大会盛大开启，与阿里云大数据一起相约杭州云栖，相遇数据智能！我们精心准备了四大智能看点，等你用一颗大数据的心，鞠一捧智能的“水”。

11540 1 6

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11992 1 5

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储运维监控

|

博文

阿里云大数据计算平台的自动化、精细化运维之路

作者简介：　　范伦挺　　阿里巴巴基础架构事业群-技术专家　　花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、AnalyticDB、StreamComput

12910 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储 SQL 物联网

|

博文

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

借助“互联网+大数据+机场”三轮驱动，掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。随着业务的拓展，随之后来的挑战是数据量的暴增。 2016年，掌慧纵盈（股票代码：835736）通过阿里云产品，率先构建了业界领先的大数据平台。本文阐述了一家物联网企业的业务架构和数据架构，以及技术选型

11140 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储缓存分布式计算

|

博文

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

24356 3 5

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算 Java 大数据

|

博文

玩转阿里云EMR三部曲-中级篇集成自有服务

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境，隔离计算和生产资源，并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

11072 57 57

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习搜索推荐算法

|

博文

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品，但是当超市将两种产品放到相邻货架销售的时候，会大大提高两者销量。很多时候看似不相关的两种产品，却会存在这某种神秘的隐含关系，获取这种关系将会对提高销售额起到推动作用，然而有时这种关联是很难通过理性的分析得到的。这时候我们需

15491 2 7

来自：人工智能平台PAI 版块

开源大数据EMR

|

分布式计算监控关系型数据库

|

博文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

11766 0 0

来自：开源大数据平台 E-MapReduce 版块

之奇

|

算法搜索推荐双11

|

博文

实时离线平台Pora介绍@2015

12456 2 2

来自：智能搜索推荐版块

祎休

|

Web App开发 SQL 分布式计算

|

博文

Amazon Redshift数据迁移到MaxCompute

10454 2 2

来自：大数据计算 MaxCompute 版块

开发者说

|

运维监控数据挖掘

|

博文

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

为了了解Elasticsearch 中国开发者群体，结合1186位开发者的调研数据和18位社区专家的深度访谈，Elastic 技术社区、阿里巴巴 Elasticsearch 技术团队和阿里云开发者社区联合发布了《Elasticsearch 中国开发者调查报告》。免费下载，抢先一步读懂这个“族群”吧。

85156 0 7

来自：检索分析服务 Elasticsearch版版块

楚项

|

分布式计算数据可视化 Java

|

博文

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置，教你如何快速实现MaxCompute的数据可视化

11230 0 3

来自：大数据计算 MaxCompute 版块

隐林

|

机器学习/深度学习人工智能分布式计算

|

博文

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

在2017年杭州云栖大会上，阿里云宣布大数据计算服务MaxCompute将于10月18日在德国法兰克福正式开服。通过MaxCompute2.0全新一代的人工智能系统，阿里云将携手更多欧洲本地合作伙伴建立科技生态，驱动当地云计算和大数据的发展，将中国先进的云计算推广至海外，在人工智能、深度学习等领域实现突破创新。

10543 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储 JSON 分布式计算

|

博文

标签分类理论

最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个

13847 1 5

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 存储关系型数据库

|

博文

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

问题概述使用阿里云rds for MySQL数据库（就是MySQL5.6版本），有个用户上网记录表6个月的数据量近2000万，保留最近一年的数据量达到4000万，查询速度极慢，日常卡死。严重影响业务。

14355 1 15

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算资源调度安全

|

博文

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要：在2017年云栖大会•北京峰会的大数据专场中，来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中，李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题；然后，他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

12304 0 0

来自：大数据计算 MaxCompute 版块

海清

|

SQL 分布式计算大数据

|

博文

数据库工程师快速上手MaxCompute进行ETL

案例说明本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。适用人群 MaxCompute初学者，特别是无大数据开发基础但有数据库使用基础。案例侧重数据库工程师快速上手MaxCompute进行大数据开发，简单了解在MaxCompute做大数据ETL过程，同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。

10882 0 1

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

odps是什么?

分布式快照算法: Chandy-Lamport

DataV接入ECharts图表库 可视化利器强强联手

MaxCompute执行作业慢的原因排查

2017杭州云栖大会FAQ（持续更新中）

Kibana：数据分析的可视化利器

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

【玩转数据系列六】文本分析算法实现新闻自动分类

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

MaxCompute常见错误汇总（更新ing）

OpenSearch：轻松构建大数据搜索服务

如何使用Kafka Connect实现同步RDS binlog数据

通过Flink实时构建搜索引擎的索引

大数据阿里云产品的简单介绍理解

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

JindoFS: 云上大数据的高性能数据湖存储方案

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

搜索双链路实时计算体系@双11实战

阿里云实时计算产品案例&解决方案汇总

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

凑单算法——基于Graph Embedding的bundle mining

JindoFS解析 - 云上大数据高性能数据湖存储方案

DL应用：query生成和query推荐

阿里云数加MaxCompute购买咨询钉钉群

流计算精品翻译: The Dataflow Model

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

接着！！Apache Flink 全领域干货合集（持续更新）

基于对象特征的推荐

高可用大数据计算服务如何持续发布和演进

机器学习PAI全新功效——实时新闻热点Online Learning实践

倒计时1天！相约杭州云栖，相遇数据智能

漫谈分布式计算框架

阿里云大数据计算平台的自动化、精细化运维之路

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

JindoFS概述：云原生的大数据计算存储分离方案

玩转阿里云EMR三部曲-中级篇 集成自有服务

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

实时离线平台Pora介绍@2015

Amazon Redshift数据迁移到MaxCompute

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

标签分类理论

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

数据库工程师快速上手MaxCompute进行ETL

大数据与机器学习

活跃用户

相关产品

DataV接入ECharts图表库可视化利器强强联手

玩转阿里云EMR三部曲-中级篇集成自有服务