开源大数据平台 E-MapReduce-最新-第25页-阿里云开发者社区-阿里云

开源大数据EMR

|

SQL 分布式计算 Hadoop

|

博文

通过Job Committer保证Mapreduce/Spark任务数据一致性

通过对象存储系统普遍提供的Multipart Upload功能，实现的No-Rename Committer在数据一致性和性能方面相对于FileOutputCommitter V1/V2版本均有较大提升，在使用MapRedcue和Spark写入数据到S3/Oss的场景中更加推荐使用。

2229 0 0

开源大数据EMR

|

消息中间件缓存分布式计算

|

博文

不可不知的Spark调优点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

2142 0 1

开源大数据EMR

|

存储分布式计算大数据

|

博文

3月19日JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。

1468 0 0

开源大数据EMR

|

存储分布式计算大数据

|

博文

3月19日JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。

938 0 0

开发者说

|

视频

关于 JindoFS 最新的 OTS 方案

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。讲师介绍殳鑫鑫，花名辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

1217 0 0

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

Spark 的 event log 为什么不可以提供类似功能呢？值得高兴的是，即将发布的 Spark 3.0 为我们带来了这个功能（具体参见 SPARK-28594）。当然，对待 Spark 的 event log 不能像其他普通应用程序的日志那样，简单切割，然后删除很早之前的日志，而需要保证 Spark 的历史服务器能够解析已经 Roll 出来的日志，并且在 Spark UI 中展示出来，以便我们进行一些查错、调优等。

1801 0 0

6bdmn27yntop2

|

问答

怎样进钉钉2个群

8611 3 0

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

Delta Lake，让你从复杂的Lambda架构中解放出来

Linux 基金会的 Delta Lake（Delta.io）是一个给数据湖提供可靠性的开源存储层软件。在 QCon 全球软件开发大会（上海站）2019 的演讲中，Databricks 公司的 Engineering Manager 李潇带我们了解了 Delta Lake 在实际生产中的应用与实践以及未来项目规划，本文便整理自此次演讲。

5462 0 1

开源大数据EMR

|

数据采集消息中间件存储

|

博文

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍，本文探讨了一种数据管理架构，该架构可以在数据到达时，通过主动监控和分析来检测流式数据中损坏或不良的数据，并且不会造成瓶颈。

3052 0 0

开源大数据EMR

|

SQL 分布式计算 Java

|

博文

【译】Delta Lake 0.5.0介绍

本文主要对Delta Lake最新发布的0.5.0版本进行了介绍，介绍了如何使用Presto读取Delta表以及Delta Lake 0.5.0在并发性上的提升。

1011 0 0

开源大数据EMR

|

存储数据采集 SQL

|

博文

Delta Lake - 数据湖的数据可靠性

Delta Lake 是一个开源的存储层，为数据湖带来了可靠性。Delta Lake 提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。它运行在现有的数据湖之上，与 Apache Spark API完全兼容。

4111 1 1

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

874 0 0

开发者说

|

视频

Hadoop Job committer 的演化和发展

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。讲师介绍李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

1045 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

1817 0 0

开源大数据EMR

|

SQL 消息中间件分布式计算

|

博文

核桃编程Delta Lake实时数仓应用实践

本文简述了核桃编程应用EMR建设Delta Lake实时数仓的实践。

3059 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

6886 0 0

开源大数据EMR

|

存储缓存分布式计算

|

博文

深入探讨HBASE

本文阐述了HBase集群、内部存储中的主要角色，以及存储过程中与hdfs的交互。

1405 0 0

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中，Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲，分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

1584 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们：如何设置参数彻底关闭Spark SQL data source表的文件合并？积极回答问题即可获得社区礼物。

2978 0 0

开源大数据EMR

|

分布式计算运维大数据

|

博文

使用 Jupyter Notebook 运行 Delta Lake 入门教程

因为官方教程是基于商业软件 Databricks Community Edition 构建，虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的，但是考虑到国内的网络环境，注册和使用 Databricks Community Edition 门槛较高。所以本文尝试基于开源的 Jupiter Notebook 重新构建这个教程。

1514 0 0

云无谓

|

SQL 分布式计算 Linux

|

博文

使用 Jupyter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

2202 0 0

开源大数据EMR

|

消息中间件存储分布式计算

|

博文

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

2483 0 0

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

Python搭建新冠肺炎预测模型全解读

新冠病毒疫后复工成为当务之急，然而病毒尚未消散，风险权衡面临不确定因素。传统机器学习模型虽然可以精确拟合历史数据，但由于脱离疾病传播机理，外推预测的可靠性低。与以往的疾病传播模型不同，南栖仙策的模型对病情的发展进行建模，能够更好的模拟潜伏期、无症状感染者。

5293 0 0

开源大数据EMR

|

消息中间件存储分布式计算

|

博文

在家办公这些天整理的Kafka知识点大全

Kakfa 广泛应用于国内外大厂，例如 BAT、字节跳动、美团、Netflix、Airbnb、Twitter 等等。今天我们通过这篇文章深入了解 Kafka 的工作原理。

1862 0 0

开源大数据EMR

|

存储编解码分布式计算

|

博文

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发，和不同程序间数据交换（比如内核与应用程序大量交换数据，从硬件接收大量数据）均使用了环形队列。

2005 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

18922 3 3

开源大数据EMR

|

消息中间件分布式计算 Java

|

博文

每年 150 亿美元花哪了？Netflix 的大规模 Kafka 实践

Netflix 在 2019 年花费了大约 150 亿美元来制作世界一流的原创内容。在如此高的投入之下，我们必须获得许多关键的业务见解，从而为所有 Netflix 内容的策划、预算和效益分析工作提供帮助

1332 0 0

开源大数据EMR

|

机器学习/深度学习传感器分布式计算

|

博文

深度学习技术在自动驾驶中的应用与挑战

深度学习技术经过近几年井喷式的发展，在很多领域都得到了广泛的应用。在自动驾驶系统中，深度学习技术也起到了至关重要的作用，同时也面临着非常多的挑战。我们一直在探索，在一个安全、稳定的自动驾驶产品中，深度学习技术应该有着怎样的作用边界，又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战，

1629 0 0

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目，Hudi（Hoodie）是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题，本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。

4368 0 0

开源大数据EMR

|

存储 SQL 资源调度

|

博文

面对业务增长，Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中，例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长，Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情，本文将详细介绍，Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

1054 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

Python中的图像增强技术

图像增强是一种非常强大的技术，针对现有图像人为创建各种变化以扩展图像数据集，例如缩放现有图像、将现有图像旋转几度、剪切或裁剪图像等等。在本文中，我们将使用 imgaug 库探索 Python 中的图像增强技术。

2835 0 0

开源大数据EMR

|

SQL 存储缓存

|

博文

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发，分享网易数据科学中心多年大数据建设经验。

1363 0 0

开源大数据EMR

|

人工智能达摩院分布式计算

|

博文

疫情当下，请把掌声送给闷声不说话的阿里巴巴

政府很重要，但政府本身并不创造财富，在经济活动中，企业是主角，企业家是翩翩起舞的角色。这一次，请把掌声送给闷声不说话的阿里，送给所有的中国企业家。

1517 0 0

开源大数据EMR

|

SQL 分布式计算资源调度

|

博文

SQL 查询的分布式执行与调度

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起，逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

2325 0 1

开源大数据EMR

|

人工智能分布式计算 Cloud Native

|

博文

10年后，阿里给千万开源人写了一封信

年末将至，阿里巴巴开源技术委员会负责人贾扬清写了一封信，想要和热爱开源的你说一声：谢谢。未来，我们希望与更多开源人一起，用技术普惠世界。

2588 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner，主要提供 OLTP 服务，而新的 F1 则定位则是大一统：旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少，据八卦是 Spanner 开始原生支持之前 F1 的部分功能，导致 F1 对 OLTP 的领地被吞并了。

1274 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算算法

|

博文

Apache Spark 将支持 Stage 级别的资源控制和调度

我们需要对不同 Stage 设置不同的资源。但是目前的 Spark 不支持这种细粒度的资源配置，导致我们不得不在作业启动的时候设置大量的资源，从而导致资源可能浪费，特别是在机器学习的场景下。

1484 0 0

开源大数据EMR

|

存储运维分布式计算

|

博文

零门槛构建弹性大数据云分析平台

从基础设施、运维管理、云生态等角度，详细了解下云托管的部分优势。

2205 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Apache

|

博文

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

1710 0 0

阿里云E-MapReduce团队

|

消息中间件弹性计算分布式计算

|

博文

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

1883 0 0

开源大数据EMR

|

SQL 弹性计算分布式计算

|

博文

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。

1582 0 0

开源大数据EMR

|

缓存分布式计算资源调度

|

博文

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌，一般公司都会有轮值人员，对于我们这些搞平台和线上应用的，至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控，如何监控。

1507 0 0

开发者说

|

视频

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark，利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应，交互式的可视化数据探索。讲师介绍李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

1723 0 0

开源大数据EMR

|

SQL 分布式计算数据可视化

|

博文

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark，利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应，交互式的可视化数据探索。

1480 0 0

开源大数据EMR

|

消息中间件 JSON 分布式计算

|

博文

通过Kafka Connect进行数据迁移

在流式数据处理过程中，E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速的实现Kafka集群间的数据同步或者数据迁移。

3161 0 0

开源大数据EMR

|

SQL 分布式计算负载均衡

|

博文

Hive性能优化（全面）

Hadoop的计算框架特性下的HIve有效的优化手段

4954 0 0

开源大数据EMR

|

SQL 人工智能分布式计算

|

博文

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。

9175 0 0

开源大数据EMR

|

消息中间件分布式计算数据可视化

|

博文

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群，并运行Spark Streaming作业消费Kafka数据。

4835 0 0

开源大数据EMR

|

SQL 数据采集缓存

|

博文

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志，其数据量每天都在增加。对于日益增长的数据量，Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化，希望为开发者带来启发，解决Hadoop MapReduce（MR）job实践中存在的问题。

3327 0 0

开源大数据EMR

|

SQL 分布式计算数据建模

|

博文

【译】Apache Spark 数据建模之时间维度（二）

Data Modeling in Apache Spark - Part 2 : Working With Multiple Dates http://blog.madhukaraphatak.com/data-modeling-spark-part-2/

1434 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

通过Job Committer保证Mapreduce/Spark任务数据一致性

不可不知的Spark调优点

3月19日JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

3月19日JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

关于 JindoFS 最新的 OTS 方案

Spark 3.0 终于支持 event logs 滚动了

怎样进钉钉2个群

Delta Lake，让你从复杂的Lambda架构中解放出来

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

【译】Delta Lake 0.5.0介绍

Delta Lake - 数据湖的数据可靠性

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Hadoop Job committer 的演化和发展

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

核桃编程Delta Lake实时数仓应用实践

Apache iceberg：Netflix 数据仓库的基石

深入探讨HBASE

Apache Kylin 云原生架构的思考及规划

浅析Hive/Spark SQL读文件时的输入任务划分

使用 Jupyter Notebook 运行 Delta Lake 入门教程

使用 Jupyter Notebook 运行 Delta Lake 入门教程

解析SparkStreaming和Kafka集成的两种方式

Python搭建新冠肺炎预测模型全解读

在家办公这些天整理的Kafka知识点大全

环形缓冲区-Hadoop Shuffle过程中的利器

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

每年 150 亿美元花哪了？Netflix 的大规模 Kafka 实践

深度学习技术在自动驾驶中的应用与挑战

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

面对业务增长，Uber是如何扩展HDFS文件系统的

Python中的图像增强技术

回顾《网易数据基础平台建设》

疫情当下，请把掌声送给闷声不说话的阿里巴巴

SQL 查询的分布式执行与调度

10年后，阿里给千万开源人写了一封信

F1 Query: Declarative Querying at Scale

Apache Spark 将支持 Stage 级别的资源控制和调度

零门槛构建弹性大数据云分析平台

2019年Apache Spark技术交流社区原创文章回顾

自建Hadoop数据迁移到阿里云EMR

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

spark过节监控告警系统实现

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

通过Kafka Connect进行数据迁移

Hive性能优化（全面）

Spark 数据倾斜及其解决方案

通过Spark Streaming作业处理Kafka数据

实践Hadoop MapReduce 任务的性能翻倍之路

【译】Apache Spark 数据建模之时间维度（二）

活跃用户

相关产品