大数据与机器学习-博文-阿里云开发者社区

巢甜

|

数据可视化开发者

|

博文

身怀绝技的开发者们，快来DataV玩转可视化组件

DataV开发者版启动公测啦。

47199 3 17

来自：数据可视化DataV 版块

封神

|

分布式计算 Hadoop 分布式数据库

|

博文

阿里封神谈hadoop生态学习之路

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

51243 14 53

来自：开源大数据平台 E-MapReduce 版块

隐林

|

SQL 算法安全

|

博文

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

79300 133 139

来自：大数据计算 MaxCompute 版块

工程师甲

|

弹性计算关系型数据库 MySQL

|

博文

【技术实验】mysql准实时同步数据到Elasticsearch

Elasticsearch作为大数据场景下搜索和分析的引擎，广泛应用于实时数据分析等场景。本文作者梳理了从MySQL准实时同步数据到Elasticsearch的实操步骤，帮助开发者理解和快速上手。

25128 154 160

来自：检索分析服务 Elasticsearch版版块

尼不要逗了

|

分布式计算算法大数据

|

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

26749 71 72

来自：开源大数据平台 E-MapReduce 版块

李寻弥-27988

|

数据可视化

|

博文

DataV接入ECharts图表库可视化利器强强联手

两个扛把子级产品的结合，而且文末有彩蛋。

25918 100 104

来自：数据可视化DataV 版块

隐林

|

分布式计算大数据 BI

|

博文

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括：股票价格数据，房产信息，影视及其票房数据。

27546 5 12

来自：大数据计算 MaxCompute 版块

场景研读

|

SQL 分布式计算大数据

|

博文

Python+大数据计算平台，PyODPS架构手把手教你搭建

在2016年10月的云栖社区在线培训上，来自阿里云大数据事业部的秦续业分享了《双剑合壁——Python和大数据计算平台的结合实战》。他主要介绍了数据分析和机器学习的方法、DataFrame整体架构以及基础API、前端、后端、机器学习的具体实现方法。

18846 4 5

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL API 双11

|

博文

实时计算 Flink SQL 核心功能解密

Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品，但是到双11期间已经支撑了数千个作业，在双11期间，Blink 作业的处理峰值达到了5+亿每秒，而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。

20301 1 3

来自：实时计算 Flink 版块

隐林

|

存储分布式计算监控

|

博文

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端，然后分天、分小时的展开数据分析作业，分析结果再导入数据库和报表系统，最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍，整个过程中数据量庞大，且计算复杂，这对云平台的大数据能力、生态完整性和开放性提

17366 4 4

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 MaxCompute BI

|

博文

【转载】时隔一年多，我又用起了 Superset

去年 6 月份在流利说提离职后，leader 问我为什么要走。我说，流利说有很健全的数据处理基础设施，但这不是所有的公司都会有的条件，所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

18418 82 83

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算搜索推荐

|

博文

干货：解码OneData，阿里的数仓之路。

据IDC报告，预计到2020年全球数据总量将超过40ZB(相当于4万亿GB)，这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘，它有可能成为商业世界的“新能源”，变革我们的生产，影响我们生活。当我们面对如此庞大的数据之时，如果我们不能有序、有结构的进行分类组织

22455 2 4

来自：大数据计算 MaxCompute 版块

米尔。。。

|

Web App开发数据可视化

|

博文

如何轮播 DataV 大屏

如何轮播 DataV 大屏当你使用 DataV 制作了足够多的大屏时，一定会冒出一个需求：轮流播放大屏页面，不要怕，一分钟就可以搞定安装 Chrome 插件 TabCarousel 首先安装神器插件 TabCarousel 使用安装完成之后，地址栏右侧会出现这么个小图标。

19846 154 164

来自：数据可视化DataV 版块

隐林

|

数据采集分布式计算监控

|

博文

品《阿里巴巴大数据实践-大数据之路》一书（上）

7月有人推荐阿里巴巴刚出的这本书《阿里巴巴大数据实践-大数据之路》，到亚马逊一看才是预售状态，拍下直到8月才拿到。翻看目录一看，欢喜的很，正好出差两天就带在身边，由于在机场滞留超过12个小时，就把它读完了。

19206 3 4

来自：大数据计算 MaxCompute 版块

薛明2

|

SQL 分布式计算大数据

|

博文

使用 MaxCompute Studio 开发大数据应用

MaxCompute（原ODPS）是阿里云自主研发的分布式大数据处理平台。MaxCompute Studio 为开发者提供了良好的开发体验，本文将展开进行介绍。

15933 0 2

来自：大数据计算 MaxCompute 版块

隐林

|

存储 SQL 运维

|

博文

流计算StreamCompute

背景每年的双十一除了“折扣”，全世界（特别是阿里人）都关注的另一个焦点是面向媒体直播的“实时大屏”（如下图所示）。包括总成交量在内的各项指标，通过数字维度展现了双十一狂欢节这一是买家，卖家及物流小二一起创造的奇迹！双十一媒体直播大屏这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的

19519 76 77

来自：实时计算 Flink 版块

冶善

|

分布式计算关系型数据库大数据

|

博文

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

本文用到的阿里云数加－大数据计算服务MaxCompute产品地址：https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具，纯java实现，可以运行于Windows, Unix, Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。

21417 3 21

来自：大数据计算 MaxCompute 版块

隐林

|

数据采集分布式计算监控

|

博文

阿里数据仓库实践分享

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

16325 1 1

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算资源调度

|

博文

MaxCompute常见错误汇总（更新ing）

从今天开始，小编会为大家陆续解读MaxCompute常见问题，帮助大家快速上手MaxCompute，玩转大数据计算平台。

24933 8 9

来自：大数据计算 MaxCompute 版块

jaredguo

|

搜索推荐 API 开发者

|

博文

OpenSearch：轻松构建大数据搜索服务

随着互联网数据规模的爆炸式增长，如何从海量的历史、实时数据中快速获取有用信息，变得越来越具有挑战性。搜索是获取信息最高效的途径之一，因此也是各类网站、应用的基础标配功能。开发者想在自己的产品中实现搜索功能一般都是基于某个开源搜索系统(如ElasticSearch、Solr、Sphinx

17892 3 5

来自：智能搜索推荐版块

付空

|

新零售搜索推荐调度

|

博文

通过Flink实时构建搜索引擎的索引

1.背景介绍搜索引擎的出现大大降低了人们寻找信息的难度，已经深入到生活与工作的方方面面，简单列举几个应用如下：互联网搜索，如谷歌，百度等；垂直搜索，如淘宝、天猫的商品搜索；站内搜索，各个内容网站提供的站内搜索服务；企业内部搜索，员工查询企业内部信息；广告投放，根据投放上下文检索出对应的广告主和广告内容；搜索引擎的关键是让用户找到其所需信息，其整体架构如下：从图示可知，一个搜索引擎从大的方面来看主要包括两部分，一部分是提供在线的搜索服务，一部分要把原始数据已离线的方式建立索引，建立索引是信息可搜索的前提。

18634 160 162

来自：实时计算 Flink 版块

上单

|

存储分布式计算监控

|

博文

大数据阿里云产品的简单介绍理解

很多人问，大数据是什么。一个时尚的技术名词，一个互联网时代的标志。给人高端大气上档次的感觉，很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。

16145 2 3

来自：大数据计算 MaxCompute 版块

jasonli4

|

消息中间件 Web App开发监控

|

博文

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

1.大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。

25977 17 25

来自：实时计算 Flink 版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

17403 58 58

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

大数据分布式计算安全

|

博文

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场，由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战，包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

16654 2 2

来自：大数据计算 MaxCompute 版块

晋恒

|

机器学习/深度学习分布式计算大数据

|

博文

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

13918 0 0

来自：大数据计算 MaxCompute 版块

米尔。。。

|

安全数据安全/隐私保护

|

博文

新版发布功能上线，新增「大屏快照」功能！

新版发布功能上线，新增「大屏快照」功能！发布分享链接设置分享链接打开「发布分享」按钮之后，会随机生成一个分享链接，此链接每次打开之后都会变更，上一次的分享链接随即失效且不能恢复到历史分享链接。

15313 152 158

来自：数据可视化DataV 版块

晋恒

|

安全数据中心分布式计算

|

博文

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场，由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着，在大数据平台中要处理的安全风险中，对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后，描述了阿里云飞天大数据平台的安全体系。

14308 2 2

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

13672 1 1

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

阿里云数加MaxCompute购买咨询钉钉群

为企业解答阿里云MaxCompute大数据计算产品购买问题。

14725 0 2

来自：大数据计算 MaxCompute 版块

隐林

|

数据采集分布式计算大数据

|

博文

企业大数据平台下数仓建设思路

介然（李金波），阿里云高级技术专家，现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历，对系统架构、数据架构拥有丰富的实战经验，曾经数据魔方、淘宝指数的数据架构设计专家。与阿里云大数据数仓结缘介然之前在一家软件公司给企业客户做软件开发和数仓开发实施，数仓开发和实施都是基于传统的

14813 1 1

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 Apache

|

博文

接着！！Apache Flink 全领域干货合集（持续更新）

Apache Flink 下一代开源大数据计算引擎，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境，对各种大小的数据规模进行快速计算。Flink 1.9.0 发布，在批流融合与功能特性上有重大更新，本专题将持续更新新增特性的具体说明及全领域干货。

17159 0 2

来自：实时计算 Flink 版块

计算爱好者

|

SQL 分布式计算大数据

|

博文

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

16145 1 1

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

阿里云MaxCompute 2019-7月刊

7月MaxCompute最新资讯，技术好文，8月精彩活动预告，尽在7月刊。

11697 0 0

来自：大数据计算 MaxCompute 版块

kilowu

|

SQL 存储分布式计算

|

博文

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件，拥有强大的计算能力，能够调度大量的节点做并行计算，同时对分布式计算中的failover，重试等均有一套行之有效的处理管理机制。而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑，在集团内外更是广为应用，在其上实现

13656 0 3

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 流计算

|

博文

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

TopN 是统计报表和大屏非常常见的功能，主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN，它的特点是持续的在内存中按照某个统计指标（如出现次数）计算 TopN 排行榜，然后当排行榜发生变化时，发出更新后的排行榜。

18972 1 7

来自：实时计算 Flink 版块

继盛

|

分布式计算数据挖掘 API

|

博文

PyOdps DataFrame来临，数据分析从未如此简单！

PyOdps正式发布DataFrame框架（此处应掌声经久不息），DTer的福音！有了它，就像卷福有了花生，比翼双飞，哦不，如虎添翼。快过年了，大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章，我只说说其用起来爽的地方。其余的部分，从使用、问题到实现原理，我

11959 0 2

来自：大数据计算 MaxCompute 版块

大数据史记

|

存储容灾大数据

|

博文

分布式存储系统

本次分享内容主要包括三部分：（一）分布式存储系统应该具备的能力；（二）阿里云分布式存储系统盘古的介绍；（三）分布式系统技术展望。

13093 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算大数据

|

博文

解决大数据难题阿里云MaxCompute获科技大奖

据介绍，MaxCompute（大规模分布式的数据计算平台）是国内最早自研的大数据计算平台之一，主要应用于大规模数据处理场景。目前，这项源自浙江、解决世界级难题的成果已拥有EB（百京）级别的数据存储能力、百PB（千兆）级的单日计算能力。

10762 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储运维监控

|

博文

阿里云大数据计算平台的自动化、精细化运维之路

作者简介：　　范伦挺　　阿里巴巴基础架构事业群-技术专家　　花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、AnalyticDB、StreamComput

12915 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储 SQL 物联网

|

博文

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

借助“互联网+大数据+机场”三轮驱动，掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。随着业务的拓展，随之后来的挑战是数据量的暴增。 2016年，掌慧纵盈（股票代码：835736）通过阿里云产品，率先构建了业界领先的大数据平台。本文阐述了一家物联网企业的业务架构和数据架构，以及技术选型

11141 0 0

来自：开源大数据平台 E-MapReduce 版块

封神

|

存储分布式计算大数据

|

博文

阿里封神-大数据处理技术漫谈

以前一篇博客，从宏观描述了云梯1当时整体生态，年底了，笔者再梳理下软件栈，主要以开源软件为主，闭源不谈。大数据发展至今，开源软件层出不穷，也去解决了不同的问题，笔者试图去弄清楚这些，分门别类，后面也可以参照下。由于笔者知识面有限，难免会出现一些偏颇，不全，不正确，还请指正。后面也会有很多新的软件出现

12462 0 0

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习搜索推荐算法

|

博文

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品，但是当超市将两种产品放到相邻货架销售的时候，会大大提高两者销量。很多时候看似不相关的两种产品，却会存在这某种神秘的隐含关系，获取这种关系将会对提高销售额起到推动作用，然而有时这种关联是很难通过理性的分析得到的。这时候我们需

15492 2 7

来自：人工智能平台PAI 版块

开源大数据EMR

|

分布式计算监控关系型数据库

|

博文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

11767 0 0

来自：开源大数据平台 E-MapReduce 版块

祎休

|

Web App开发 SQL 分布式计算

|

博文

Amazon Redshift数据迁移到MaxCompute

10455 2 2

来自：大数据计算 MaxCompute 版块

继盛

|

机器学习/深度学习分布式计算数据挖掘

|

博文

MaxCompute上你从未体验过的数据分析和机器学习过程

PyODPS，拥有对于Python用户传统的数据分析和机器学习愉快的体验，包括了DataFrame框架和机器学习模块，它们类似于pandas+scikit-learn，能用它们进行数据分析、绘图、机器学习等等。

10650 0 0

来自：大数据计算 MaxCompute 版块

开发者说

|

运维监控数据挖掘

|

博文

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

为了了解Elasticsearch 中国开发者群体，结合1186位开发者的调研数据和18位社区专家的深度访谈，Elastic 技术社区、阿里巴巴 Elasticsearch 技术团队和阿里云开发者社区联合发布了《Elasticsearch 中国开发者调查报告》。免费下载，抢先一步读懂这个“族群”吧。

85159 0 7

来自：检索分析服务 Elasticsearch版版块

晋恒

|

大数据分布式计算 MaxCompute

|

博文

【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享

本文汇集2019杭州云栖大会上MaxCompute的主题分享，内容涵盖MaxCompute技术关键进展及展望，超大规模企业级计算引擎，分布式智能调度执行框架，列式存储引擎，MaxCompute生态，大数据平台的安全风控以及混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践等内容，从底层技术到最佳实践，内容广泛而深入，希望能让读者有所收获。

11130 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算资源调度安全

|

博文

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要：在2017年云栖大会•北京峰会的大数据专场中，来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中，李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题；然后，他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

12305 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算大数据

|

博文

MaxCompute常用语句汇总(更新ing)

收集一些MaxCompute常用命令。

11890 0 1

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

身怀绝技的开发者们，快来DataV玩转可视化组件

阿里封神谈hadoop生态学习之路

odps是什么?

【技术实验】mysql准实时同步数据到Elasticsearch

分布式快照算法: Chandy-Lamport

DataV接入ECharts图表库 可视化利器强强联手

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

Python+大数据计算平台，PyODPS架构手把手教你搭建

实时计算 Flink SQL 核心功能解密

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

干货：解码OneData，阿里的数仓之路。

如何轮播 DataV 大屏

品《阿里巴巴大数据实践-大数据之路》一书（上）

使用 MaxCompute Studio 开发大数据应用

流计算StreamCompute

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

阿里数据仓库实践分享

MaxCompute常见错误汇总（更新ing）

OpenSearch：轻松构建大数据搜索服务

通过Flink实时构建搜索引擎的索引

大数据阿里云产品的简单介绍理解

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

JindoFS: 云上大数据的高性能数据湖存储方案

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

新版发布功能上线，新增「大屏快照」功能！

如何有效降低大数据平台安全风险

Spark in action on Kubernetes - Playground搭建与架构浅析

阿里云数加MaxCompute购买咨询钉钉群

企业大数据平台下数仓建设思路

接着！！Apache Flink 全领域干货合集（持续更新）

HIVE MapJoin异常问题处理总结

阿里云MaxCompute 2019-7月刊

MaxCompute上如何处理非结构化数据

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

PyOdps DataFrame来临，数据分析从未如此简单！

分布式存储系统

解决大数据难题 阿里云MaxCompute获科技大奖

阿里云大数据计算平台的自动化、精细化运维之路

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

阿里封神-大数据处理技术漫谈

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

Amazon Redshift数据迁移到MaxCompute

MaxCompute上你从未体验过的数据分析和机器学习过程

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

MaxCompute常用语句汇总(更新ing)

大数据与机器学习

活跃用户

相关产品

DataV接入ECharts图表库可视化利器强强联手

解决大数据难题阿里云MaxCompute获科技大奖