开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
![](https://vod-yq-aliyun.taobao.com/vod-7651a3/image/default/94A4643DC29C4739B7AB55C2F5BF3934-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
《数据湖存储架构选型》
数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级,享受新一轮的技术发展红利?郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战,以及方案选型和最佳实践。嘉宾简介:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。
![](https://ucc.alicdn.com/pic/developer-ecology/000337d77638499f89d05541e11d6dfc.png?x-oss-process=image/resize,h_160,m_lfit)
DeltaLake在工业大脑的实践分享
随着2020年云栖大工业大脑3.0的发布,工业大脑已经经历了多年的发展。本文将为大家分享,在工业数据中台建设中使用DeltaLake的优秀实践,主要包括: (1) 异地异构流消息的处理 (2) 流批融合的数据分析 (3) 对事务的处理和对算法的支持
![](https://ucc.alicdn.com/pic/developer-ecology/b543e75072304cb4aa0a8a606284d2ee.png?x-oss-process=image/resize,h_160,m_lfit)
精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站(附PPT下载)
开源届前浪后浪全员凶猛,合体也成为主流。此次 Meetup 分享了 Flink 和 Iceberg,Flink 和 Hologres,Flink 和 Pulsar 的深度融合探索实践、Spark 高性能向量化查询引擎解析、热度冲天的数据湖存储架构选型、bilibili 和滴滴的 kafka 平台优化方案;还 有Elasticsearch、开源流式存储系统 Pravega 的企业级实践。
![](https://ucc.alicdn.com/pic/developer-ecology/27c8cfd19d71427ca9876693d024d4e2.png?x-oss-process=image/resize,h_160,m_lfit)
10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】
介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。
![](https://vod-yq-aliyun.taobao.com/vod-7651a3/image/default/4DDDAC845D7C4FD4A63D9815D519DA7D-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析
Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案,它采用PMem 作为Shuffle的存储介质,利用PMDK 用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。讲师介绍:张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化
![](https://ucc.alicdn.com/pic/developer-ecology/76889fc5bcb24fed8ac7d9ebfedf46cd.png?x-oss-process=image/resize,h_160,m_lfit)
下半年你关心的行业热点都在这里,BIGDATA+AI Meetup 2020第二站·上海站开启报名!
本次活动汇集2020年下半年开发者最关心的开源主题,搜罗了数据湖、数仓架构、实时计算等热门议题,9位行业资深专家,硬核输出,用实践说话。
![](https://ucc.alicdn.com/pic/developer-ecology/81a7f7f55c314dc9920f5bfb9c47d077.png?x-oss-process=image/resize,h_160,m_lfit)
大数据上手实战!Spark 实战训练营第三季开启
首期大数据“9营齐开”计划吸引了10000+开发者报名参与,成为今夏最火爆的大数据训练营!伴随着第一季训练营的完美落幕,大数据训练营“九营齐开”第二季,暨Spark 实战训练营第三季开启!蓄势待发!
![](https://ucc.alicdn.com/pic/developer-ecology/66d5200ec437436dbb9cf68b9c8b7aca.png?x-oss-process=image/resize,h_160,m_lfit)
10月15日社区直播【Intel MLlib:构建平台优化的Spark机器学习】
Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。
![](https://vod-yq-aliyun.taobao.com/vod-7651a3/image/default/8FD7550BC6B54D7296E7EF765B4E8173-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
Intel MLlib:构建平台优化的Spark机器学习
Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师,主要研究方向为并行计算,大数据系统和机器学习,CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。
E-MapReduce客户端安装和卸载工具,实现Gateway功能
E-MapReduce客户端安装和卸载工具,主要用于集群外的ECS(已经存在)中需要使用hadoop,hive等客户端命令工具。 目前云平台提供的gateway只能重新创建ECS进行部署,而不支持在已经创建的Ecs中部署。
![](https://ucc.alicdn.com/pic/developer-ecology/6efb3981b6c34d6f95a0643ade42de2e.png?x-oss-process=image/resize,h_160,m_lfit)
如何实现Spark on Kubernetes?
大数据时代,以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求,Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火,很多数字化企业已经把在线业务搬到了Kubernetes之上,并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战?又该如何解决?
![](https://ucc.alicdn.com/pic/developer-ecology/d26baf5336ce462ea1d0347f204648a9.png?x-oss-process=image/resize,h_160,m_lfit)
数据湖架构,为什么需要“湖加速”?
湖加速即为数据湖加速,是指在数据湖架构中,为了统一支持各种计算,对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。那么为什么需要湖加速?数据湖如何实现“加速”?本文将从三个方面来介绍湖加速背后的原因,分享阿里云在湖加速上的实践经验和技术方案。
![](https://ucc.alicdn.com/pic/developer-ecology/d46da67c5ab14b23ba1f33578fad9e32.png?x-oss-process=image/resize,h_160,m_lfit)
重磅下载!首次揭秘如何构建阿里云云原生数据湖体系
《阿里云云原生数据湖体系全解读》涵盖数据湖存储、加速、构建、计算、治理,一站搭建全新云原生数据湖体系,完成企业大数据架构转型。速度下载收藏!
![](https://ucc.alicdn.com/pic/developer-ecology/1b28b353fb384925a94ce9ca561d263d.png?x-oss-process=image/resize,h_160,m_lfit)
JindoFS 存储策略和读写优化
本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合JindoFS应用场景介绍对数据缓存加速的相关技术和策略。
![](https://ucc.alicdn.com/pic/developer-ecology/9378cb53bb44475680c88c84cd043604.jpg?x-oss-process=image/resize,h_160,m_lfit)
官宣!阿里云重磅发布云原生数据湖体系
介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。
![](https://ucc.alicdn.com/pic/developer-ecology/cf12becb49fa4c4d8ff9aab379a3585d.png?x-oss-process=image/resize,h_160,m_lfit)
【数据湖开发治理篇】——数据湖开发治理平台DataWorks
元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。
![](https://ucc.alicdn.com/pic/developer-ecology/bc151f6ea33a4537a153bfe7b0daa440.png?x-oss-process=image/resize,h_160,m_lfit)
Serverless Spark的弹性利器 - EMR Shuffle Service
在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。在计算存储分离架构中,可以独立配置计算机型和存储机型,具有极大的灵活性,从而降低成本。
![](https://ucc.alicdn.com/pic/developer-ecology/5ed3318c3b984e92a4cc9d63e9c2506a.png?x-oss-process=image/resize,h_160,m_lfit)
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
![](https://ucc.alicdn.com/pic/developer-ecology/a95164e19bb64b269df40a34bb2da8fd.png?x-oss-process=image/resize,h_160,m_lfit)
多引擎集成挖掘湖上数据价值
在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
![](https://ucc.alicdn.com/pic/developer-ecology/541fa315999b44e49a7633bc7c872a5f.png?x-oss-process=image/resize,h_160,m_lfit)
数据湖元数据服务的实现和挑战
数据湖元数据服务为大数据而生,为互通生态而生,期望后续继续完善其服务能力和支撑更多的大数据引擎,通过开放的服务能力、存储能力、统一的权限及元数据管理能力,为客户节省管理/人力/存储等各项成本,实现客户自己的业务价值。
![](https://ucc.alicdn.com/pic/developer-ecology/0089897805864a4d87fe62a73b9644db.png?x-oss-process=image/resize,h_160,m_lfit)
JindoTable数据湖优化与查询加速
近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。
![](https://ucc.alicdn.com/pic/developer-ecology/105c6af542704b5c9129582337333309.png?x-oss-process=image/resize,h_160,m_lfit)
JindoFS缓存加速数据湖上的机器学习训练
JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。
![](https://ucc.alicdn.com/pic/developer-ecology/1383ec7224b74cbdbac89c575f3da87c.png?x-oss-process=image/resize,h_160,m_lfit)
基于OSS的EB级数据湖
数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。
![](https://ucc.alicdn.com/pic/developer-ecology/a94f2225a2784f308cca32acbb5fcfe0.jpg?x-oss-process=image/resize,h_160,m_lfit)
阿里巴巴数据湖技术对外公布
数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案,助力企业无缝对接多种计算引擎,打破孤岛,洞察业务价值。本技术圈会持续发布最新产品动向和技术解读,更有不定期视频直播,与您一起完成企业大数据架构转型。敬请关注
![](https://ucc.alicdn.com/pic/developer-ecology/0b3055e1587e4954941edf1c5c7f5c88.png?x-oss-process=image/resize,h_160,m_lfit)
阿里云 EMR 产品内部培训课程首次免费对外公开!
EMR产品技术团队将在这四节课中,循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等,更多的是面对企业实际需求时,阿里云大数据团队的一些思考方式。
![](https://ucc.alicdn.com/pic/developer-ecology/4ac6e061f69c43e6b20f7ac5d3caef82.png?x-oss-process=image/resize,h_160,m_lfit)
9月10日 Spark 社区直播【利用持久内存提速Spark】
主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/087E13E55D534CE5BF0A3A2FDCEDC100-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
利用持久内存提速Spark
主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。讲师介绍:纪琨尚,英特尔亚太研发有限公司大数据部门的软件工程师,专注于Spark计算框架上基于Optane PMEM的优化叶宇强,英特尔亚太研发有限公司大数据部门的资深软件工程师,专注于Spark计算框架上基于Optane PMEM的优化
![](https://ucc.alicdn.com/pic/developer-ecology/9c99fe3a790e46fdbb69d833749e6f2d.png?x-oss-process=image/resize,h_160,m_lfit)
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。
![](https://ucc.alicdn.com/pic/developer-ecology/72c541b449f342a1a3384a03ee05c22d.png?x-oss-process=image/resize,h_160,m_lfit)
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/91A519F06FBA41B6BF54B45F676DB6A9-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能
讲师介绍:陈海锋,英特尔亚太研发有限公司大数据部门的高级软件架构师,开发经理,主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化,Apache社区的长期贡献者。沈祥翔,英特尔亚太研发有限公司大数据部门的高级软件工程师,主要担任OAP项目的开发。分享介绍:简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作,为Spark SQL实现了索引和数据源缓存,通过为关键查询列创建并存储完整的B +树索引,并使用智能的细粒度数据缓存策略,我们可以极大的提升基于Spark SQL的交互式查询的性能。
![](https://ucc.alicdn.com/pic/developer-ecology/18be71a837fa426aae5d2d3375dcae2b.png?x-oss-process=image/resize,h_160,m_lfit)
使用 E-MapReduce 构建云上数据湖
本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关,分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。
![](https://ucc.alicdn.com/pic/developer-ecology/cb344626c280490e8c8442bcc3aaf9ce.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark™ 3.0中全新的Structured Streaming UI
Spark 3.0中新的Structured Streaming UI会提供一些有用的信息和统计数据,以此来监视所有流作业,便于在开发调试过程中排除故障。同时,开发者还能够获得实时的监测数据,这能使生产流程更直观。
![](https://ucc.alicdn.com/pic/developer-ecology/be99b8abc99b43f990984f12f563c581.png?x-oss-process=image/resize,h_160,m_lfit)
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
阿里云智能高级研究员贾扬清出品,实时计算 Flink、Hologres、EMR、机器学习 PAI、MaxCompute、DataWorks、ElasticSearch 等多个技术/产品一线专家齐上阵,核心开发阵容在线直播教学。
![](https://ucc.alicdn.com/pic/developer-ecology/c6900ad388074576bc0a8316b12b2013.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 中文实战攻略下册
Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。《Apache Spark 中文实战攻略(下册)》让企业大数据平台性能更优。阿里、Databricks、领英、Intel都在用!Spark 企业级最佳实践中文解读全收纳!
![](https://ucc.alicdn.com/pic/developer-ecology/212e6ba4ea6745ffbeb85617ad573a3a.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 中文实战攻略上册
《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。 《Apache Spark 中文实战攻略(上册)》全新收录了Spark+AI Summit 2020 中文精华版峰会,Apache Spark 3.0性能优化与基础实战一书看遍!
![](https://ucc.alicdn.com/pic/developer-ecology/20897744346d4be2adb98ff87ed894cc.png?x-oss-process=image/resize,h_160,m_lfit)
限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!
《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。
![](https://ucc.alicdn.com/pic/developer-ecology/b51c1c375c424de392d920fe12e8750a.png?x-oss-process=image/resize,h_160,m_lfit)
国内Spark开发者的免费入门宝典!首发作者阵容高手云集!
《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。
![](https://ucc.alicdn.com/pic/developer-ecology/a6dae9dc4aa64e3b99143bb412727192.png?x-oss-process=image/resize,h_160,m_lfit)
深入研究Apache Spark 3.0的新功能
分享嘉宾 Apache Spark PMC李潇,就职于 Databricks,Spark 研发部主管,领导 Spark,Koalas,Databricks runtime,OEM 的研发团队,在直播中为大家深入讲解了Apache Spark 3.0的新功能。