Apache Spark中国技术交流社区历次直播回顾(持续更新)

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

2020年

6月11日【JindoFS 存储策略和读写优化】

slides:https://www.slidestalk.com/AliSpark/JindoFS89850

简介:
本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合应用场景介绍对数据缓存加速的相关技术和策略。

讲师:姚舜扬
花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作


5月21日【Spark on Zeppelin】

slides:https://www.slidestalk.com/AliSpark/SparkonZeppelin92262?video

简介:
Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。

讲师:章剑锋(简锋)
开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。


5月14日【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】

https://www.slidestalk.com/AliSpark/fifaaliyunupdated35396

简介:
近年来,由于对通用人工智能研究的潜在价值,训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂,需要结合图像,强化学习等多种不同的AI技术,同时也要求agents响应有实时性,因此是一个非常好的试验场,可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。

讲师:喻杉,
Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。


5月8日【JindoFS Fuse 支持】

https://www.slidestalk.com/AliSpark/JindoFSFUSE90042

简介:
本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。

讲师:苏昆辉,
花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。


4月29日【用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助】

https://www.slidestalk.com/AliSpark/AnalyticsZooAI_v421285

简介:
本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集,在Apache Spark集群上实现基于深度学习的胸腔疾病分类,为医生提供端到端的胸腔疾病AI诊疗辅助。

讲师:龚奇源
博士,英特尔机器学习专家。从事多年数据隐私和机器学习研究,2017年加入英特尔,目前负责Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理优化等工作。


4月23日【大规模文件元数据下的耗时操作优化】

https://www.slidestalk.com/AliSpark/EMR66944

简介:
本次直播主要介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。

讲师:孙大鹏
花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。


4月9日【存储计算分离场景的计算适应优化】

https://www.slidestalk.com/AliSpark/72146

简介:
本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。

讲师:王道远
花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。


3月27日【Office Depot利用Analytics Zoo构建智能推荐系统的实践分享】
https://www.slidestalk.com/AliSpark/OfficeDepotAnalyticsZoo20200326_KaiHuang54699

简介:
大量实验结果表明深度学习能更好地帮助商家为用户个性化推荐感兴趣的商品。Office Depot将Analytics Zoo工具包引入到他们的推荐系统中,在Spark集群上分布式训练了各种推荐算法模型,实验结果相比于传统的推荐算法有了十分显著的提升,本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。

讲师:黄凯
Intel数据分析团队软件工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是Analytics Zoo和BigDL的核心贡献者之一。


3月19日【关于 JindoFS 最新的 OTS 方案分享

简介:
本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。

讲师
殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。


3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

https://www.slidestalk.com/AliSpark/HadoopJobCommitter24512

讲师:
李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作

直播简介:
Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。


1月9日【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

https://www.slidestalk.com/AliSpark/ApacheSupersetEMRSpark27046?video

简介:
本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

讲师:
李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。


2019年

12月11日【实时数仓建设以及典型场景应用】

https://www.slidestalk.com/AliSpark/94464?video

简介:
本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用

讲师:
宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor


12月5日【是时候改变你数仓的增量同步方案了 】

https://www.slidestalk.com/AliSpark/64659?video

简介:
本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。

讲师:
祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。


11月28日【Tablestore结合Spark的云上流批一体大数据架构 】

https://www.slidestalk.com/AliSpark/TablestoreSpark31173?video

简介:
传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

讲师:
王卓然 花名琸然 阿里云存储服务技术专家


11月16日【阿里云大数据+AI技术沙龙上海站】回看


11月14日Spark社区直播【 Spark on Kubernetes & YARN

https://www.slidestalk.com/AliSpark/MicrosoftPowerPoint55236?video

直播介绍:
以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?
Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。

主讲人:
何剑
阿里巴巴高级技术专家,专注于Kubernetes容器云和大数据底层调度以及基础架构,负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员


10月17日【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理 】

https://www.slidestalk.com/AliSpark/Spark78776

主讲人:朱晓然
Tablestore存储服务技术专家

简介: Tablestore是阿里云自研的云原生结构化大数据存储服务,本议题会详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源,场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。

直播demo


9月26日【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】

https://www.slidestalk.com/AliSpark/NewDevelopmentsintheOpenSourceEcosystemApacheSpark30andKoalas32939

主讲人:李潇
Databricks Spark 研发总监,管理一跨国团队,专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于 IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)

简介: Apache Spark 3.0 and Koalas的最新进展


9月27日【助力云上开源生态 - 阿里云开源大数据平台的发展】

https://www.slidestalk.com/AliSpark/Koalas72249

主讲人:夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

简介:介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。


9月27日【EMR打造高效云原生数据分析引擎】

https://www.slidestalk.com/AliSpark/2019___0926_110365

主讲人:辛现银,花名辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

简介:EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎,EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。


9月27日【云上大数据的一种高性能数据湖存储方案】

https://www.slidestalk.com/AliSpark/0761944

主讲人:

  • 殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
  • 徐铖, Intel大数据团队软件开发经理

简介:大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!


9月27日【基于Spark与TensorFlow的机器学习实践】

https://www.slidestalk.com/AliSpark/201960935

讲师:

  • 吴威,花名无谓 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。
  • 江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

简介:Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。


9月27日【Spark Relational Cache实现亚秒级响应的交互式分析】

https://www.slidestalk.com/AliSpark/SparkRelationalCache2019_57927

主讲人:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

简介:2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析
Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,可以显著提高查询速度,实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。


9月18日【阿里巴巴大数据产品最新特性介绍—E-MapReduce】

主讲人:王晓平,花名子关,阿里云智能事业群高级产品经理

简介:本次直播将为您介绍E-MapReduce近期发布最新feature,涵盖集群队列管理,弹性伸缩等场景产品的使用。帮助您更快的上手云上开源大数据体系。


8月28日【Spark Streaming SQL流式处理简介

https://www.slidestalk.com/AliSpark/StreamingSQL89252

主讲人:云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者

简介:本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示


8月14日【Spark Shuffle 优化

https://www.slidestalk.com/AliSpark/SparkShuffle72856

主讲人:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

简介:本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据


7月31日【Apache Spark 在存储计算分离趋势下的数据缓存

https://www.slidestalk.com/AliSpark/ApacheSpark59735

主讲人:辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

简介:在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。


7月24日【Apache Spark 基于 Apache Arrow 的列式存储优化

https://www.slidestalk.com/AliSpark/ApacheSpark57985

主讲人:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

简介:Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。


7月10日【E-MapReduce产品探秘,扩展开源生态云上的能力

https://www.slidestalk.com/AliSpark/EMapReduce244933

讲师:夏立,花名雷飙 ,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

直播介绍:E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。


7月3日【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台

https://www.slidestalk.com/AliSpark/EMapReduce34570

讲师:夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

直播介绍:E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。


7月3日【Koalas 介绍

https://www.slidestalk.com/AliSpark/Koalas80025

讲师:王道远(健身),阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容介绍:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。


6月26日【Spark Relational Cache 原理和实践

https://www.slidestalk.com/AliSpark/SparkRelationalCache78971

讲师:李呈祥,阿里巴巴计算平台事业部EMR团队的高级技术专家,Apache Hive Committer, Apache Flink Committer,深度参与了Hadoop,Hive,Spark,Flink等开源项目的研发工作,对于SQL引擎,分布式系统有较为深入的了解和实践,目前主要专注于EMR产品中开源计算引擎的优化工作。

内容介绍:主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。


6与19日【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展

https://www.slidestalk.com/AliSpark/mlflowandprojecthydrogen85216

讲师:江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设。

内容介绍:mlflow为企业提供一套开源的机器学习端到端工具,同时,project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式,project hydrogen的进展以及我们如何通过project hydrogen提供的能力更好的将Spark与AI结合。


6月6日【Structured Steaming的进阶与实践

https://www.slidestalk.com/AliSpark/StructuredStreaming60695

讲师:关文选,花名云魄,阿里云E-MapReduce 技术专家,开源爱好者。

介绍:structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。
本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。


5月29日【Migration to Apache Spark

https://www.slidestalk.com/AliSpark/migration_to_spark66763

讲师:宋军,花名嵩林,阿里云EMR技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

内容简介:Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。
本次分享将围绕Hive迁移到SparkSQL进行展开,内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。


5月23日【基于Spark实现的MLSQL如何帮助企业构建数据中台

https://www.slidestalk.com/AliSpark/SparkMLSQL78867

讲师:祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。

内容简介:本次分享中,分享者会阐述他心目中的数据中台的样子,并且介绍如何基于MLSQL完成数据中台的构建。
此外,分享者会也会介绍MLSQL是如何基于Spark来完成这些扩展的,重要的技术点有:
1.如何扩展Spark SQL使其成为一个数据专用的语言MLSQL.
2.如何实现对各种数据源譬如HDFS/ES/MySQL/MongoDB等细化到列的权限控制。
3.如何构建二层RPC通讯强化对Executor的控制,实现对机器学习更好的支持。
4.如何支持兼容多版本Spark
5.如何避免机器学习中预测阶段无法复用训练时的代码和数据
另外,我们也会简单探讨下Databricks公司新开元项目Delta对于数据和机器学习的意义。


5月15日【Delta Lake:一种新型的数据湖方案

https://www.slidestalk.com/AliSpark/Introduction_to_Delta43594

讲师:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

内容简介:Delta Lake 是 Databricks 推出的一种新型的数据湖方案,解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开,如 Delta Lake 的适用场景、技术优势,Delta 的原理实现以及一些高级特性等,并就现有解决方案做横向对比。


4月29日【Spark + AI 北美峰会参会分享

讲师:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更好用更有弹性的Hadoop/Spark 大数据平台。

内容简介:Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?敬请期待!


1月10日【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践
讲师:
黄凯——Intel大数据技术团队软件工程师。
卫雨青——Microsoft C+AI 团队软件工程师。

简介:本次分享将为大家介绍Intel的Analytics Zoo工具包,并分享微软Azure智能客服平台使用Intel Analytics Zoo的实践经验。
ppt下载


12月26日【大数据列式存储之 Parquet/ORC

主讲人:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

简介:Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎,这两者在实现上有什异同,哪个效率更好,哪个性能更优,本次分享将和您一起探索两大列式存储。
ppt下载


12月21日【What's New in Apache Spark 2.4?
讲师:李潇,现就职于Databricks,专注于Apache Spark的开发和建设。他是Apache Spark项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)

Abstract(简介):This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.
The Apache Spark 2.4 comes packed with a lot of new functionalities: new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support and a lot of other improvements.
ppt下载


12月13日【Spark RDD编程入门

讲师:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括:
1.Spark、RDD简介
2.RDD API简介
3.打包与spark-submit
4.性能分析与调优基础
ppt下载


12月6日【机器学习介绍与Spark MLlib实践

讲师:江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设。

内容提要:本次讲座主要面对的是机器学习的入门者,以及想要使用Spark来进行机器学习的用户。我们会介绍一下机器学习相关领域的基础知识,以及机器学习在spark上面的实践,同时给出我们的一些使用建议。
ppt下载


11月27日 【Spark SQL 实践与优化

讲师:宋军,花名嵩林,阿里云EMR技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

内容简介:
1.基本原理
2.支持的DataSource介绍
3.Hue/Zepplin/Livy周边跟SparkSQL的集成使用等
4.SparkSQL优化
5.SparkSQL Catalyst优化
6.AE优化
7.Shuffle优化
ppt下载


12月4日【从 Spark Streaming 到 Structured Streaming

讲师:陶克路,花名敌珐,阿里巴巴技术专家。Apache Pulsar 等开源软件 Contributor。技术领域包括大数据和云原生技术栈,目前致力于构建大数据领域业界领先的 APM 产品。

提纲:
1.Spark Streaming
2.Google Dataow
3.Structured Streaming
4.Reference
ppt下载


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
二维码.JPG
对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
image.png
Apache Spark技术交流社区公众号,微信扫一扫关注
image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
11月前
|
消息中间件 人工智能 Apache
Apache RocketMQ 中文社区全新升级!
RocketMQ 中文社区升级发布只是起点,我们将持续优化体验细节,推出更多功能和服务,更重要的是提供更多全面、深度、高质量的内容。
831 54
|
3月前
|
消息中间件 人工智能 Apache
Apache RocketMQ 中文社区全新升级!
Apache RocketMQ 中文社区全新升级!
101 7
|
3月前
|
存储 大数据 数据处理
您有一份 Apache Flink 社区年度报告请查收~
您有一份 Apache Flink 社区年度报告请查收~
|
8月前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
215 1
|
10月前
|
消息中间件 人工智能 监控
|
10月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
172 0
|
10月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
361 0
|
11月前
|
分布式计算 Apache Spark
|
6月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
561 33
The Past, Present and Future of Apache Flink
|
8月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
1356 13
Apache Flink 2.0-preview released

推荐镜像

更多