开源大数据平台 E-MapReduce-视频-第2页-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

今日

1634

内容

活动

5421

关注

来自：大数据与机器学习

学习

Dev-Talk

视频

第一节课：走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍：夏俊鸾，花名亦龙，阿里云智能资深技术专家讲师：王晓平，花名子关，阿里巴巴 EMR 产品专家

1195 0 0

Dev-Talk

视频

数据湖技术在大数据领域炙手可热，随着在云上的广泛部署和应用，其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级，享受新一轮的技术发展红利？郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战，以及方案选型和最佳实践。嘉宾简介：郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

1000 0 0

Dev-Talk

视频

利用持久内存提速Spark

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。讲师介绍：纪琨尚，英特尔亚太研发有限公司大数据部门的软件工程师，专注于Spark计算框架上基于Optane PMEM的优化叶宇强，英特尔亚太研发有限公司大数据部门的资深软件工程师，专注于Spark计算框架上基于Optane PMEM的优化

1386 0 0

开发者说

视频

关于 JindoFS 最新的 OTS 方案

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。讲师介绍殳鑫鑫，花名辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

1052 0 0

开发者说

视频

实时数仓建设以及典型场景应用

本次分享会介绍实时数仓的思路以及一些实践，包括SparkStreaming SQL引擎，以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合；同时会在这个基础上介绍一些典型案例应用讲师介绍宋军，花名嵩林阿里云EMR高级技术专家。从事Spark内核优化，对SparkCore/SprakSQL有深入了解，Spark Contributor

2382 0 0

开发者说

视频

是时候改变你数仓的增量同步方案了

本分享会先介绍传统数据增量同步方案，之后对比新方案（完全基于Spark无需额外组件），介绍新方案如何结合最新的数据湖(delta lake)实现，同时引入spark-binlog，极大的简化了数据增量的门槛和架构。如果时间允许，我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉，资深数据架构，11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台，降低AI落地成本相关工作上。

1679 0 0

Dev-Talk

视频

Lakehouse Meetup “整合Pulsar和Lakehouse数据：使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”

Lakehouse Meetup “整合Pulsar和Lakehouse数据：使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”张勇 StreamNative 高级工程师Apache Pulsar Committer

394 0 0

Dev-Talk

视频

使用Databricks和MLflow进行机器学习模型训练和部署的应用实践【Databricks 数据洞察公开课】

本期课介绍如何使用DDI和MLflow搭建机器学习生命周期管理平台，实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

1052 0 2

Dev-Talk

视频

企业级全托管 Spark 大数据分析平台及案例分析【Databricks 数据洞察公开课】

从产品介绍、功能、典型场景、应用案例、Demo演示等多方面入手，介绍如何基于Databricks 数据洞察——Apache Spark的全托管数据分析平台，满足数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群讲师/嘉宾简介棕泽阿里云技术专家阿里云开源大数据生态企业研发负责人

661 0 0

Dev-Talk

视频

E-MapReduce 极客挑战赛线上宣讲会

直播介绍：（建议600字以内）E-MapReduce 极客挑战赛线上宣讲会直播内容：1、大咖寄语2、赛事解读讲师简介EMR极客挑战赛官方

623 0 0

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第11期

Spark 大家应该都很熟了，我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西，一些非常落地的最佳实践，主要的目标是让你为摆脱Spark小白用户的称号。讲师简介简锋阿里云 EMR 数据开发平台负责人

919 0 0

Dev-Talk

视频

第四节课：EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师：魏巍，花名念民，阿里巴巴 EMR 产品经理

938 0 0

Dev-Talk

视频

TFPark: Distributed TensorFlow in Production on Apache Spark

TFPark是开源AI平台Analytics Zoo中一个模块，它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面，TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中，而无需对现有集群做任何修改；另一方面TFPark屏蔽了复杂的分布式系统逻辑，可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用，内部实现以及在生产环境中的实际案例。讲师简介：汪洋，英特尔大数据团队的机器学习工程师，专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。

1003 0 1

Dev-Talk

视频

Spark on Zeppelin

Apache Zeppelin 是一个交互式的大数据开发Notebook，从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势：不需要编译Jar，环境配置简单，交互式开发，数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

1432 0 0

Dev-Talk

视频

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

近年来，由于对通用人工智能研究的潜在价值，训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂，需要结合图像，强化学习等多种不同的AI技术，同时也要求agents响应有实时性，因此是一个非常好的试验场，可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。有兴趣的同学，可以提前关注此开源项目：https://github.com/intel-analytics/analytics-zoo讲师介绍：喻杉，Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前，她在浙江大学获得了学士和硕士学位。

1756 0 0

Dev-Talk

视频

JindoFS Fuse 支持

本次直播主要介绍如何利用FUSE的POSIX文件系统接口，像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。讲师介绍苏昆辉，花名抚月，阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。

1376 0 0

开发者说

视频

（第二部分）从Python 到Java ，Pyboot加速大数据和AI的融合

Python 代表机器学习生态，而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序，后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口，还有没有更高效的一手数据通道，将两个生态对接起来，乃至深度融合？Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台；孙大鹏，花名诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作；

1642 1 1

开发者说

视频

Tablestore结合Spark的云上流批一体大数据架构

传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然，花名琸然阿里云存储服务技术专家

1743 0 0

开发者说

视频

使用分布式自动机器学习进行时间序列分析

对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具，我们将自动机器学习应用于时间序列预测，将特征生成，模型选择和超参数调优等过程实现自动化。我们的工具基于Ray（UC Berkeley RISELab开源的针对高级AI 应用的分布式框架，并作为Analytics zoo（由intel开源的统一的大数据分析和人工智能平台）的一部分功能提供给用户。嘉宾介绍喻杉，Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前，她在浙江大学获得了学士和硕士学位。

1772 0 1

开发者说

视频

基于 Spark 打造高效云原生数据分析引擎

由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点，深入到技术细节做详细介绍，包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。

1699 0 0

开发者说

视频

【云上大数据的一种高性能数据湖存储方案】

大数据上云是业界普遍共识，存储和计算分离的趋势日益显著，如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础？这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案，该方案基于云平台和云存储，面向新的存储硬件和计算发展趋势，为 EMR 弹性计算量身打造，在成本，弹性和性能上追求极佳平衡。技术上是如何实现的？性能如何？覆盖了哪些典型场景，最佳实践是什么？敬请期待！主讲人殳鑫鑫(辰石)，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。徐铖， Intel大数据团队软件开发经理

1589 0 0

Dev-Talk

视频

EMR StarRocks VS 开源版本功能差异介绍

EMR StarRocks 线上公开课第2期直播亮点Serverless StarRocks 客户案例分享Serverless StarRocks VS 开源版本能力介绍讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

526 0 0

Dev-Talk

视频

EMR StarRocks 3.0：极速统一湖仓新范式平台

EMR StarRocks 线上公开课第1期直播亮点统一极速湖仓架构的技术思考Serverless StarRocks 亮点及技术优势Serverless StarRocks 已落地案例分享Serverless StarRocks 持续演进与规划讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

552 0 0

Dev-Talk

视频

云上StarRocks 极速湖仓meetup-水滴筹基于阿里云EMR StarRocks实战分享

3163 0 0

Dev-Talk

视频

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

从场景痛点、实践操作介绍如何使用Delta Lake同时处理批作业和流作业，快速搭建批流一体数据仓库。讲师/嘉宾简介讲师：佳亮，阿里云开源大数据平台技术工程师

1636 0 1

Dev-Talk

视频

Delta Lake数据湖基础介绍（商业版）【Databricks 数据洞察公开课】

公开课第五讲：介绍 Lakehouse 搜索引擎的设计思想，探讨其如何使用缓存，辅助数据结构，存储格式，动态文件剪枝，以及 vectorized execution 达到优越的处理性能。加入技术交流群下期预告《如何快速搭建流批一体数据仓库》讲师/嘉宾简介：李洁杏 Databricks 资深软件工程师

1113 0 0

Dev-Talk

视频

开源大数据社区 & 阿里云 E-MapReduce 系列直播第10期

EMR on ACK是企业级半托管的开源大数据平台，为阿里云E-MapReduce(EMR)提供了一个部署选项，允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。Yarn on K8S方案帮助您平衡不同集群的资源使用，共享集群间计算资源，充分利用所有节点的计算资源，满足计算资源弹性调度，云上混合部署在线和离线任务的需求。本次直播将重点展开 Yarn on ACK 的弹性介绍。讲师简介霁谦阿里云开源大数据平台高级开发工程师

1399 56 57

Dev-Talk

视频

第三节课：EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案，如何为计算提供灵活高效的存储基础讲师：姚舜扬，花名辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

1041 0 0

Dev-Talk

视频

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。讲师简介：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。参考文章：EMR Spark-SQL性能极致优化揭秘 Native Codegen Frameworkhttps://developer.aliyun.com/article/765156?spm=a2c6h.12873581.0.dArticle765156.5f6f47b4Mj7VpM&groupCode=aliyunemr

2087 0 0

开发者说

视频

Spark on Kubernetes & YARN

以Kubernetes为代表的云原生技术越来越流行起来，spark是如何跑在Kubernetes之上来享受云原生技术的红利？Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别？以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑，阿里巴巴高级技术专家，专注于Kubernetes容器云和大数据底层调度以及基础架构，负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员

1321 53 53

开发者说

视频

【基于Spark与TensorFlow的机器学习实践】

Apache Spark是目前最火热的计算框架，而TensorFlow是目前最火热的机器学习框架，当他们2个碰撞到一起的时候，也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威（无谓），阿里巴巴高级技术专家，2008年加入阿里巴巴集团，先后在B2B和阿里云工作，一直从事大数据和分布式计算相关研究，作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大，现在阿里云EMR团队，负责Spark、Hadoop等计算引擎研发。江宇，阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

2340 1 1

开发者说

视频

【EMR打造高效云原生数据分析引擎】

EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎，EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化，目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高，达到了3615071，成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。主讲人辛现银(辛庸)，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。

1322 0 0

开发者说

视频

【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】

Apache Spark 3.0 and Koalas的最新进展主讲人李潇,Databricks Spark 研发总监，管理一跨国团队，专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学，后在佛罗里达大学（University of Florida）获计算机博士学位，曾就职于 IBM，获发明大师称号（Master Inventor），在数据处理领域发表专利十余篇。（Github: gatorsmile）

1449 2 2