开源大数据平台 E-MapReduce-最新-第21页-阿里云开发者社区-阿里云

趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长，如何优化大数据平台，真正实现降本增效，技术人也面临着非常大的挑战，近半年趣头条和阿里云一起合作，通过Spark Remote Shuffle Service取得了较大的进展，在这里大家可以更加详细地了解这套方案。

11903 2 2

阿里云E-MapReduce团队

SQL 机器学习/深度学习人工智能

博文

2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名！

始于开源，精于实践，作为2020年收官之战，本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火？开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾？来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体，我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口，透出属于大数据人的科技之光。

3536 0 0

Dev-Talk

视频

第四节课：EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师：魏巍，花名念民，阿里巴巴 EMR 产品经理

936 0 0

Dev-Talk

视频

第三节课：EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案，如何为计算提供灵活高效的存储基础讲师：姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

1040 0 0

Dev-Talk

视频

第二节课：EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师：孙大鹏，花名诚历，阿里巴巴 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

912 0 0

Dev-Talk

视频

第一节课：走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍：夏俊鸾，花名亦龙，阿里云智能资深技术专家讲师：王晓平，花名子关，阿里巴巴 EMR 产品专家

1189 0 0

安妮Annie

存储缓存人工智能

博文

数据湖存储架构选型

阿里巴巴计算平台事业部郑锴为大家带来数据湖存储架构选型的介绍

3899 0 1

Dev-Talk

视频

《数据湖存储架构选型》

数据湖技术在大数据领域炙手可热，随着在云上的广泛部署和应用，其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级，享受新一轮的技术发展红利？郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战，以及方案选型和最佳实践。嘉宾简介：郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

993 0 0

安妮Annie

存储消息中间件分布式计算

博文

DeltaLake在工业大脑的实践分享

随着2020年云栖大工业大脑3.0的发布，工业大脑已经经历了多年的发展。本文将为大家分享，在工业数据中台建设中使用DeltaLake的优秀实践，主要包括： (1) 异地异构流消息的处理 (2) 流批融合的数据分析 (3) 对事务的处理和对算法的支持

4184 0 0

logic杨

Android开发

问答

Android studio

1111 0 0

阿里云E-MapReduce团队

消息中间件存储人工智能

博文

精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站（附PPT下载）

开源届前浪后浪全员凶猛，合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg，Flink 和 Hologres，Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案；还有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。

4759 0 0

阿里云E-MapReduce团队

存储机器学习/深度学习分布式计算

博文

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

4426 0 0

Dev-Talk

视频

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案，它采用PMem 作为Shuffle的存储介质，利用PMDK 用户态编程库进行数据读写，减小用户态、内核态切换与文件系统开销；用基于RDMA网络协议异构的传输层实现高性能数据传输；还将RDMA直接注册在PMem上，减少内存拷贝。本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。讲师介绍：张建，英特尔亚太研发有限公司大数据部门的软件工程经理，专注于大数据和机器学习中存储方案优化

2234 58 58

wosow-bigdata

存储运维

问答

Hudi MOR 表类型相关生产配置，特别是压缩配置

1267 0 0

毒分享

问答

百度云备案可以转阿里来吗

2679 2 0

阿里云E-MapReduce团队

消息中间件存储人工智能

博文

下半年你关心的行业热点都在这里，BIGDATA+AI Meetup 2020第二站·上海站开启报名！

本次活动汇集2020年下半年开发者最关心的开源主题，搜罗了数据湖、数仓架构、实时计算等热门议题，9位行业资深专家，硬核输出，用实践说话。

5227 0 0

阿里云E-MapReduce团队

机器学习/深度学习分布式计算 DataWorks

博文

大数据上手实战！Spark 实战训练营第三季开启

首期大数据“9营齐开”计划吸引了10000+开发者报名参与，成为今夏最火爆的大数据训练营！伴随着第一季训练营的完美落幕，大数据训练营“九营齐开”第二季，暨Spark 实战训练营第三季开启！蓄势待发！

6993 0 0

阿里云E-MapReduce团队

机器学习/深度学习分布式计算并行计算

博文

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。

2988 0 0

...