开发者社区> 阿里云EMR> 正文

Apache Spark中国技术交流社区历次直播回顾(持续更新)

简介: Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉团队群号:HPRX8117。更多视频和ppt资料请入群获得。

9月26日【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】

主讲人:李潇
Databricks Spark 研发总监,管理一跨国团队,专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于 IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)

简介: Apache Spark 3.0 and Koalas的最新进展


9月27日【助力云上开源生态 - 阿里云开源大数据平台的发展】

主讲人:夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

简介:介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。


9月27日【EMR打造高效云原生数据分析引擎】

主讲人:辛现银,花名辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

简介:EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎,EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。


9月27日【云上大数据的一种高性能数据湖存储方案】

主讲人:

  • 殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
  • 徐铖, Intel大数据团队软件开发经理

简介:大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!


9月27日【基于Spark与TensorFlow的机器学习实践】

讲师:

  • 吴威,花名无谓 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。
  • 江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

简介:Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。


9月27日【Spark Relational Cache实现亚秒级响应的交互式分析】

主讲人:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

简介:2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析
Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,可以显著提高查询速度,实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。


9月18日【阿里巴巴大数据产品最新特性介绍—E-MapReduce】

主讲人:王晓平,花名子关,阿里云智能事业群高级产品经理

简介:本次直播将为您介绍E-MapReduce近期发布最新feature,涵盖集群队列管理,弹性伸缩等场景产品的使用。帮助您更快的上手云上开源大数据体系。


8月28日【Spark Streaming SQL流式处理简介

主讲人:云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者

简介:本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示


8月14日【Spark Shuffle 优化

主讲人:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

简介:本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据


7月31日【Apache Spark 在存储计算分离趋势下的数据缓存

主讲人:辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

简介:在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。


7月24日【Apache Spark 基于 Apache Arrow 的列式存储优化

主讲人:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

简介:Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。


7月10日【E-MapReduce产品探秘,扩展开源生态云上的能力
讲师:夏立,花名雷飙 ,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

直播介绍:E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。


7月3日【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台
讲师:夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

直播介绍:E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。


7月3日【Koalas 介绍

讲师:王道远(健身),阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。


6月26日【Spark Relational Cache 原理和实践

讲师:李呈祥,阿里巴巴计算平台事业部EMR团队的高级技术专家,Apache Hive Committer, Apache Flink Committer,深度参与了Hadoop,Hive,Spark,Flink等开源项目的研发工作,对于SQL引擎,分布式系统有较为深入的了解和实践,目前主要专注于EMR产品中开源计算引擎的优化工作。

内容介绍:主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。


6与19日【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展

讲师:江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设。

内容介绍:mlflow为企业提供一套开源的机器学习端到端工具,同时,project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式,project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。


6月6日【Structured Steaming的进阶与实践

讲师:关文选,花名云魄,阿里云E-MapReduce 技术专家,开源爱好者。

介绍:structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。
本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。


5月29日【Migration to Apache Spark

讲师:宋军,花名嵩林,阿里云EMR技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

内容简介:Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。
本次分享将围绕Hive迁移到SparkSQL进行展开,内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。


5月23日【基于Spark实现的MLSQL如何帮助企业构建数据中台

讲师:祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。

内容简介:本次分享中,分享者会阐述他心目中的数据中台的样子,并且介绍如何基于MLSQL完成数据中台的构建。
此外,分享者会也会介绍MLSQL是如何基于Spark来完成这些扩展的,重要的技术点有:
1.如何扩展Spark SQL使其成为一个数据专用的语言MLSQL.
2.如何实现对各种数据源譬如HDFS/ES/MySQL/MongoDB等细化到列的权限控制。
3.如何构建二层RPC通讯强化对Executor的控制,实现对机器学习更好的支持。
4.如何支持兼容多版本Spark
5.如何避免机器学习中预测阶段无法复用训练时的代码和数据
另外,我们也会简单探讨下Databricks公司新开元项目Delta对于数据和机器学习的意义。


5月15日【Delta Lake:一种新型的数据湖方案

讲师:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

内容简介:Delta Lake 是 Databricks 推出的一种新型的数据湖方案,解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开,如 Delta Lake 的适用场景、技术优势,Delta 的原理实现以及一些高级特性等,并就现有解决方案做横向对比。


4月29日【Spark + AI 北美峰会参会分享

讲师:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的Hadoop/Spark 大数据平台。

内容简介:Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?敬请期待!


1月10日【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践
讲师:
黄凯——Intel大数据技术团队软件工程师。
卫雨青——Microsoft C+AI 团队软件工程师。

简介:本次分享将为大家介绍Intel的Analytics Zoo工具包,并分享微软Azure智能客服平台使用Intel Analytics Zoo的实践经验。
ppt下载


12月26日【大数据列式存储之 Parquet/ORC

主讲人:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

简介:Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎,这两者在实现上有什异同,哪个效率更好,哪个性能更优,本次分享将和您一起探索两大列式存储。
ppt下载


12月21日【What's New in Apache Spark 2.4?
讲师:李潇,现就职于Databricks,专注于Apache Spark的开发和建设。他是Apache Spark项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)

Abstract(简介):This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.
The Apache Spark 2.4 comes packed with a lot of new functionalities: new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support and a lot of other improvements.
ppt下载


12月13日【Spark RDD编程入门

讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括:
1.Spark、RDD简介
2.RDD API简介
3.打包与spark-submit
4.性能分析与调优基础
ppt下载


12月6日【机器学习介绍与Spark MLlib实践

讲师:江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设。

内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。我们会介绍一下机器学习相关领域的基础知识,以及机器学习在spark上面的实践,同时给出我们的一些使用建议。
ppt下载


11月27日 【Spark SQL 实践与优化

讲师:宋军,花名嵩林,阿里云EMR技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

内容简介:
1.基本原理
2.支持的DataSource介绍
3.Hue/Zepplin/Livy周边跟SparkSQL的集成使用等
4.SparkSQL优化
5.SparkSQL Catalyst优化
6.AE优化
7.Shuffle优化
ppt下载


12月4日【从 Spark Streaming 到 Structured Streaming

讲师:陶克路,花名敌珐,阿里巴巴技术专家。Apache Pulsar 等开源软件 Contributor。技术领域包括大数据和云原生技术栈,目前致力于构建大数据领域业界领先的 APM 产品。

提纲:
1.Spark Streaming
2.Google Dataow
3.Structured Streaming
4.Reference
ppt下载


二维码.JPG

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
上一篇:7月24日阿里云峰会.上海 开发者大会回看 下一篇:实时 OLAP 系统 Druid
阿里云EMR
使用钉钉扫一扫加入圈子
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!钉钉群号:21784001,或点击链接申请加入 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jr4ucSRJs6kkK7QZ5sw2oSHRGNoFjONsQgKxZGiTFXA=&_dt_no_comment=1&origin=11

官方博客
官网链接