开源大数据平台 E-MapReduce-博文-第6页-阿里云开发者社区-阿里云

阿里云E-MapReduce团队

|

SQL 存储 Java

|

博文

数据湖实操讲解【OSS 访问加速】第九讲：Presto 如何高效查询 OSS 数据

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

2607 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 DataWorks

|

博文

【月刊】E-MapReduce 2021-04/05 产品月刊

4-5月 E-MapReduce 上线EMR-3.35.x版本、EMR-4.9.x版本，同步对SmartData 3.5.x版本进行更新；客户实践案例发表《Databricks 数据洞察 Delta Lake 在基智科技（STEPONE）的应用实践》与《Databricks数据洞察在美的暖通与楼宇的应用实践》；【数据湖 JindoFS+OSS 实操干货36讲】公开课重磅上线。欢迎持续关注更多精彩内容！

1587 0 0

阿里云E-MapReduce团队

|

存储 SQL 人工智能

|

博文

StarLake：汇量科技云原生数据湖的探索和实践

快速了解汇量科技在云原生数据湖领域的探索和实践，详解 StarLake 的架构及业务应用案例。

1721 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

欢迎钉钉扫描文章底部二维码进入 EMR钉钉交流群直接和讲师讨论交流~ 点击该链接直接观看直播回放：https://developer.aliyun.com/live/246868

3171 0 0

阿里云E-MapReduce团队

|

存储弹性计算分布式计算

|

博文

云原生数据湖构建、分析与开发治理最佳实践及案例分享

什么是数据湖？又如何对对数据湖进行分析与开发治理？本文深入浅出的介绍了云原生数据湖构建、分析与开发治理最佳实践及案例分享。

9975 0 1

阿里云E-MapReduce团队

|

SQL 消息中间件存储

|

博文

数据湖实操讲解【OSS 访问加速】第八讲：Flume 高效写入 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

2255 0 0

阿里云E-MapReduce团队

|

缓存弹性计算算法

|

博文

数据湖实操讲解【OSS 访问加速】第七讲：Flink 高效 sink 写入 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

2460 0 0

阿里云E-MapReduce团队

|

存储传感器消息中间件

|

博文

【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践

获取更详细的 Databricks 数据洞察相关信息，可至产品详情页查看：https://www.aliyun.com/product/bigdata/spark

2204 0 0

阿里云E-MapReduce团队

|

分布式计算 Hadoop Java

|

博文

数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

1635 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

数据湖实操讲解【OSS 访问加速】第五讲：访问 OSS 这类对象存储最快的方式 - JindoFS SDK

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

1247 0 0

阿里云E-MapReduce团队

|

SQL 弹性计算分布式计算

|

博文

实践体验的机会来了！产品免费体验活动——“基于EMR进行离线大数据分析”

听再多公开课，不如免费实操体验一把！

606 0 0

阿里云E-MapReduce团队

|

存储机器学习/深度学习人工智能

|

博文

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

3883 0 1

阿里云E-MapReduce团队

|

存储 SQL 大数据

|

博文

数据湖实操讲解【数据迁移】第四讲：如何将 Hive 数据按分区归档到 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

733 0 0

阿里云E-MapReduce团队

|

存储弹性计算分布式计算

|

博文

数据湖实操讲解【数据迁移】第三讲：如何将 HDFS 海量文件归档到OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

1020 1 1

阿里云E-MapReduce团队

|

SQL Java Apache

|

博文

【阿里云EMR实战篇】以EMR测试集群版本为例，详解 Flink SQL Client 集成 Hive 使用步骤

以测试集群版本为例（EMR-4.4.1）—— Flink SQL Client 集成 Hive 使用文档

1114 0 0

阿里云E-MapReduce团队

|

存储分布式计算算法

|

博文

数据湖实操讲解【数据迁移】第二讲：数据无忧 - 利用 checksum 迁移 HDFS 数据到 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

998 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

【实践案例】Databricks 数据洞察 Delta Lake 在基智科技（STEPONE）的应用实践

获取更详细的 Databricks 数据洞察相关信息，可至产品详情页查看：https://www.aliyun.com/product/bigdata/spark

6192 0 0

阿里云E-MapReduce团队

|

存储分布式计算资源调度

|

博文

数据湖实操讲解【数据迁移】第一讲：高效迁移 HDFS 海量文件到 OSS

数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~

1005 0 0

阿里云E-MapReduce团队

|

存储 SQL 人工智能

|

博文

干货满满！【数据湖 JindoFS+OSS 实操干货36讲】直播预告来袭！

扫描海报上的钉钉群二维码入群，线上观看直播，每周二16：00 准时开播！

703 0 0

阿里云E-MapReduce团队

|

SQL 架构师 Java

|

博文

一篇看懂！MLSQL 是如何作为一个可编程的 SQL 语言的？

重点讲解 MLSQL 的一些语法特性，通过这些特性的覆盖，我们可以看到 MLSQL 是怎么作为一个可编程的 SQL 语言的。

1246 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件 JSON

|

博文

Delta Lake在Soul的应用实践

传统离线数仓模式下，日志入库前首要阶段便是ETL，我们面临如下问题：天级ETL任务耗时久，影响下游依赖的产出时间；凌晨占用资源庞大，任务高峰期抢占大量集群资源；ETL任务稳定性不佳且出错需凌晨解决、影响范围大。为了解决天级ETL逐渐尖锐的问题，所以这次我们选择了近来逐渐进入大家视野的数据湖架构，基于阿里云EMR的Delta Lake，我们进一步打造优化实时数仓结构，提升部分业务指标实时性，满足更多更实时的业务需求。

7254 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Kubernetes

|

博文

阿里云EMR实习生招聘

阿里云EMR团队等你来加盟

901 0 0

黯灭_邓彬

|

人工智能大数据

|

博文

Databricks数据洞察公开课！精彩案例，成功实践，技术解读都在这里！

欢迎观看Databricks数据洞察公开课，Databricks专注三个场景：🤗大数据和AI一体化，数据/模型开发与计算；😄商业版Delta Lake 流批一体解决方案；😊全托管、高性能spark，优于开源数十倍。此公开课从2021年1月开始，每月更新课程视频，希望帮助企业快速搭建数智基建。

826 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用。在 Fluid 上使用和部署 JindoRuntime 实现数据集的可见性、弹性伸缩、数据迁移、计算加速等，并流程简单、兼容原生 k8s 环境、可以开箱即用。同时深度结合对象存储特性，使用navite框架优化性能，并支持免密、checksum校验等云上数据安全功能。

846 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

10亿+文件数压测，阿里云JindoFS轻松应对

Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案，其核心元数据服务 NameNode 将全部元数据存放在内存中，因此所能承载的元数据规模受限于内存，单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统，提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何，我们在 10亿文件数规模下做了压测，验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。

911 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件分布式计算

|

博文

阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践

为了消灭数据孤岛，企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程，期间遇到的挑战，以及delta在数据接入中产生的价值。

11487 0 0

阿里云E-MapReduce团队

|

存储 SQL 缓存

|

博文

大数据和AI | 基于Spark的高性能向量化查询引擎

由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上，几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。

2582 0 0

黯灭_邓彬

|

存储分布式计算资源调度

|

博文

降本增效利器！趣头条Spark Remote Shuffle Service最佳实践

趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长，如何优化大数据平台，真正实现降本增效，技术人也面临着非常大的挑战，近半年趣头条和阿里云一起合作，通过Spark Remote Shuffle Service取得了较大的进展，在这里大家可以更加详细地了解这套方案。

11950 2 2

阿里云E-MapReduce团队

|

SQL 机器学习/深度学习人工智能

|

博文

2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名！

始于开源，精于实践，作为2020年收官之战，本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火？开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾？来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体，我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口，透出属于大数据人的科技之光。

3562 0 0

安妮Annie

|

存储缓存人工智能

|

博文

数据湖存储架构选型

阿里巴巴计算平台事业部郑锴为大家带来数据湖存储架构选型的介绍

3960 0 1

安妮Annie

|

存储消息中间件分布式计算

|

博文

DeltaLake在工业大脑的实践分享

随着2020年云栖大工业大脑3.0的发布，工业大脑已经经历了多年的发展。本文将为大家分享，在工业数据中台建设中使用DeltaLake的优秀实践，主要包括： (1) 异地异构流消息的处理 (2) 流批融合的数据分析 (3) 对事务的处理和对算法的支持

4203 0 0

阿里云E-MapReduce团队

|

消息中间件存储人工智能

|

博文

精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站（附PPT下载）

开源届前浪后浪全员凶猛，合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg，Flink 和 Hologres，Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案；还有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。

4777 0 0

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

|

博文

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

4477 0 0

阿里云E-MapReduce团队

|

消息中间件存储人工智能

|

博文

下半年你关心的行业热点都在这里，BIGDATA+AI Meetup 2020第二站·上海站开启报名！

本次活动汇集2020年下半年开发者最关心的开源主题，搜罗了数据湖、数仓架构、实时计算等热门议题，9位行业资深专家，硬核输出，用实践说话。

5235 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 DataWorks

|

博文

大数据上手实战！Spark 实战训练营第三季开启

首期大数据“9营齐开”计划吸引了10000+开发者报名参与，成为今夏最火爆的大数据训练营！伴随着第一季训练营的完美落幕，大数据训练营“九营齐开”第二季，暨Spark 实战训练营第三季开启！蓄势待发！

6999 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算并行计算

|

博文

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。

3033 0 0

chenyunaling

|

SQL 弹性计算分布式计算

|

博文

E-MapReduce客户端安装和卸载工具，实现Gateway功能

E-MapReduce客户端安装和卸载工具，主要用于集群外的ECS（已经存在）中需要使用hadoop，hive等客户端命令工具。目前云平台提供的gateway只能重新创建ECS进行部署，而不支持在已经创建的Ecs中部署。

3293 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

如何实现Spark on Kubernetes？

大数据时代，以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求，Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火，很多数字化企业已经把在线业务搬到了Kubernetes之上，并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战？又该如何解决？

20768 0 0

阿里云E-MapReduce团队

|

存储 SQL 机器学习/深度学习

|

博文

数据湖架构，为什么需要“湖加速”？

湖加速即为数据湖加速，是指在数据湖架构中，为了统一支持各种计算，对数据湖存储提供适配支持，进行优化和缓存加速的中间层技术。那么为什么需要湖加速？数据湖如何实现“加速”？本文将从三个方面来介绍湖加速背后的原因，分享阿里云在湖加速上的实践经验和技术方案。

35633 0 0

温柔的养猫人

|

存储缓存分布式计算

|

博文

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

《阿里云云原生数据湖体系全解读》涵盖数据湖存储、加速、构建、计算、治理，一站搭建全新云原生数据湖体系，完成企业大数据架构转型。速度下载收藏！

96382 0 0

阿里云E-MapReduce团队

|

大数据

|

博文

欢迎加入 databricks 数据洞察产品交流钉钉群

一起大数据吧！

7019 0 0

阿里云E-MapReduce团队

|

分布式计算大数据

|

博文

欢迎加入 E- MapReduce 钉钉产品交流群

一起大数据吧

3129 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

JindoFS 存储策略和读写优化

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段，并结合JindoFS应用场景介绍对数据缓存加速的相关技术和策略。

2679 0 1

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

官宣！阿里云重磅发布云原生数据湖体系

介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建（Data Lake Formation，DLF）等基础服务，同时结合阿里云上丰富的计算引擎，打造一个全新云原生数据湖体系。

39511 0 2

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题，阿里云的DataWorks作为一个通用的大数据平台，除了很好的解决了数仓场景的各类问题，也同样解决了数据湖场景中的核心痛点。

24198 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

Serverless Spark的弹性利器 - EMR Shuffle Service

在传统计算存储混合的架构中，为了兼顾计算和存储，CPU和存储设备都不能太差，因此牺牲了灵活性，提高了成本。在计算存储分离架构中，可以独立配置计算机型和存储机型，具有极大的灵活性，从而降低成本。

19136 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

云原生计算引擎挑战与解决方案

云原生比较有前景的实现就是Kubernetes，所以有时候我们一提到云原生，几乎就等价于是Kubernetes。

15513 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

Change Data Capture(CDC)用来跟踪捕获数据源的数据变化，并将这些变化同步到目标存储(如数据湖或数据仓库)，用于数据备份或后续分析，同步过程可以是分钟/小时/天等粒度，也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。

12637 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

多数据源一站式入湖

通过一站式入湖，将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中，解决了企业面临的数据孤岛问题，为统一的数据分析打好了基础.

12290 0 1

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

多引擎集成挖掘湖上数据价值

在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK，同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持，所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。

4973 0 0

开源大数据平台 E-MapReduce

最新

博文

E-MapReduce

视频

免费试用

全部内容

问答

电子书

活动

学习

数据湖实操讲解【OSS 访问加速】第九讲：Presto 如何高效查询 OSS 数据

【月刊】E-MapReduce 2021-04/05 产品月刊

StarLake：汇量科技云原生数据湖的探索和实践

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

云原生数据湖构建、分析与开发治理最佳实践及案例分享

数据湖实操讲解【OSS 访问加速】第八讲：Flume 高效写入 OSS

数据湖实操讲解【OSS 访问加速】第七讲：Flink 高效 sink 写入 OSS

【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践

数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速

数据湖实操讲解【OSS 访问加速】第五讲：访问 OSS 这类对象存储最快的方式 - JindoFS SDK

实践体验的机会来了！产品免费体验活动——“基于EMR进行离线大数据分析”

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

数据湖实操讲解【数据迁移】第四讲：如何将 Hive 数据按分区归档到 OSS

数据湖实操讲解【数据迁移】第三讲：如何将 HDFS 海量文件归档到OSS

【阿里云EMR实战篇】以EMR测试集群版本为例，详解 Flink SQL Client 集成 Hive 使用步骤

数据湖实操讲解【数据迁移】第二讲：数据无忧 - 利用 checksum 迁移 HDFS 数据到 OSS

【实践案例】Databricks 数据洞察 Delta Lake 在基智科技（STEPONE）的应用实践

数据湖实操讲解【数据迁移】第一讲：高效迁移 HDFS 海量文件到 OSS

干货满满！【数据湖 JindoFS+OSS 实操干货36讲】 直播预告来袭！

一篇看懂！MLSQL 是如何作为一个可编程的 SQL 语言的？

Delta Lake在Soul的应用实践

阿里云EMR实习生招聘

Databricks数据洞察公开课！精彩案例，成功实践，技术解读都在这里！

拥抱云原生，Fluid结合JindoFS ：阿里云OSS加速利器

10亿+文件数压测，阿里云JindoFS轻松应对

阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践

大数据和AI | 基于Spark的高性能向量化查询引擎

降本增效利器！趣头条Spark Remote Shuffle Service最佳实践

2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名！

数据湖存储架构选型

DeltaLake在工业大脑的实践分享

精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站（附PPT下载）

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

下半年你关心的行业热点都在这里，BIGDATA+AI Meetup 2020第二站·上海站开启报名！

大数据上手实战！Spark 实战训练营第三季开启

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

E-MapReduce客户端安装和卸载工具，实现Gateway功能

如何实现Spark on Kubernetes？

数据湖架构，为什么需要“湖加速”？

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

欢迎加入 databricks 数据洞察产品交流钉钉群

欢迎加入 E- MapReduce 钉钉产品交流群

JindoFS 存储策略和读写优化

官宣！阿里云重磅发布云原生数据湖体系

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

Serverless Spark的弹性利器 - EMR Shuffle Service

云原生计算引擎挑战与解决方案

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

多数据源一站式入湖

多引擎集成挖掘湖上数据价值

活跃用户

相关产品

干货满满！【数据湖 JindoFS+OSS 实操干货36讲】直播预告来袭！