SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题-阿里云开发者社区

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

2020-06-28 2209

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

就在本周六、日

SPARK + AI SUMMIT 2020 中文精华版线上峰会，在北美结束第一时间“闪电般快速”为诸位奉上一场技术盛筵。本次活动由阿里云开发者社区牵头，联合十四位来自北京、上海、杭州、硅谷的PMC和意见领袖，一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外，还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击详细议程

7月4日上午议题：

李潇.jpg
范振.jpg
李元健.jpg
周康.jpg

Apache Spark 3.0简介：回顾过去的十年，并展望未来

李潇
Databricks Spark 研发部主管，领导 Spark，Koalas，Databricks runtime，OEM的研发团队。Apache Spark Committer、PMC成员。2011年从佛罗里达大学获得获得了博士学位。曾就职于IBM，获发明大师称号(Master Inventor)，是异步数据库复制和一致性验证的领域专家，发表专利十余篇。(Github: gatorsmile)

我们将分享Apache Spark创建者Matei Zaharia的主题演讲，重点介绍Apache Spark 3.0 更易用、更快、更兼容的特点。Apache Spark 3.0 延续了项目初心，在SQL和Python API上取得了重大改进；自适应动态优化，使数据处理更易于访问，从而最大限度地减少手动配置。今年也是Spark首次开源发布的10周年纪念日，我们将回顾该项目及其用户群是如何增长的，以及Spark周围的生态系统（如Koalas, Delta Lake 和可视化工具）是如何发展的，共同探讨处理大规模数据的更简单、更有效的方案。

在Kubernetes上运行Apache Spark：最佳实践和陷阱

范振
花名辰繁，阿里云智能 EMR 团队高级技术专家。曾在搜狐京东工作，分别参与了 linux 内核、CDN、分布式计算和存储的研发工作。目前专注于大数据云原生化工作。

随着spark2.3引入spark on kubernetes以来，越来越多的公司开始关注这一特性。主要的原因一方面是在kubernetes上可以更好地隔离计算资源，另一方面是可以为公司提供一个统一的、云原生的基础架构技术栈。但是，如何能够稳定的、高性能的、省成本的以及安全的使用spark on kubernetes是一个很大的挑战。这次talk，我们主要谈一下在建立Data Mechanics平台（一种serverless形式的spark on kubernetes平台）的过程中积累的经验教训。

Structured Streaming生产化实践及调优

李元健
Databricks软件工程师。曾于2011年加入百度基础架构部，先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作，2017年转岗项目经理，负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队，参与开源软件及Databricks产品研发。

流式计算作业从研发完成到正式上线的过程中，往往需要做充分的预上线准备。本次分享旨在从如下四个方向入手，以现场demo的形式探讨Structured Streaming生产化实践及调优：

数据源相关参数：不合理的参数会增大流式作业计算负载，导致性能降低。
计算状态参数：不合理的设置导致无止尽的状态计算及内存耗尽。
数据输出相关参数：常见的小文件问题及应对建议。
线上作业的修改：针对已有checkpoint的线上作业修改思路及方案。

Apache Spark 3.0对Prometheus监控的原生支持

周康
花名榆舟，阿里云EMR技术专家。开源爱好者，是 Apache Spark/Hadoop/Parquet 等项目的贡献者。关注大规模分布式计算、调度、存储等系统，先后从事过 Spark、OLAP、Hadoop Yarn 等相关工作的落地。目前主要专注在 EMR 大数据上云的相关工作。

Apache Spark实现了一个支持可配置的metrics system，用户在生产环境中可以将Spark提供的metrics数据（包括driver、executor等）推送到多种Sink。Prometheus是一个开源的分布式监控系统，尤其在云原生时代被广泛使用。
Apache Spark也支持以Prometheus作为Sink，将metrics数据推送到Prometheus中来进行监控和报警。目前常见的实现方式有下面几种：

使用jmx exporter和Spark的JMXSink结合的方式；
使用第三方库；
实现Sink插件来支持更复杂的metrics；
本次分享会为大家介绍在Apache Spark 3.0中对Prometheus监控的原生支持，包括如何使用Prometheus特性、目前已经实现的metrics、以及如何对structured streaming 作业进行监控等。

钉钉群同步直播，欢迎钉钉扫码加入Apache Spark中国技术交流社区！
二维码.JPG