SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

简介: SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

就在本周六、日

SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美结束第一时间“闪电般快速”为诸位奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击详细议程


7月4日上午议题:

李潇.jpg
范振.jpg
李元健.jpg
周康.jpg


Apache Spark 3.0简介:回顾过去的十年,并展望未来

李潇
Databricks Spark 研发部主管,领导 Spark,Koalas,Databricks runtime,OEM的研发团队。Apache Spark Committer、PMC成员。2011年从佛罗里达大学获得获得了博士学位。曾就职于IBM,获发明大师称号(Master Inventor),是异步数据库复制和一致性验证的领域专家,发表专利十余篇。(Github: gatorsmile)

我们将分享Apache Spark创建者Matei Zaharia的主题演讲,重点介绍Apache Spark 3.0 更易用、更快、更兼容的特点。Apache Spark 3.0 延续了项目初心,在SQL和Python API上取得了重大改进;自适应动态优化,使数据处理更易于访问,从而最大限度地减少手动配置。今年也是Spark首次开源发布的10周年纪念日,我们将回顾该项目及其用户群是如何增长的,以及Spark周围的生态系统(如Koalas, Delta Lake 和可视化工具)是如何发展的,共同探讨处理大规模数据的更简单、更有效的方案。


在Kubernetes上运行Apache Spark:最佳实践和陷阱

范振
花名辰繁,阿里云智能 EMR 团队高级技术专家。曾在搜狐京东工作,分别参与了 linux 内核、CDN、分布式计算和存储的研发工作。目前专注于大数据云原生化工作。

随着spark2.3引入spark on kubernetes以来,越来越多的公司开始关注这一特性。主要的原因一方面是在kubernetes上可以更好地隔离计算资源,另一方面是可以为公司提供一个统一的、云原生的基础架构技术栈。但是,如何能够稳定的、高性能的、省成本的以及安全的使用spark on kubernetes是一个很大的挑战。这次talk,我们主要谈一下在建立Data Mechanics平台(一种serverless形式的spark on kubernetes平台)的过程中积累的经验教训。


Structured Streaming生产化实践及调优

李元健
Databricks软件工程师。曾于2011年加入百度基础架构部,先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作,2017年转岗项目经理,负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队,参与开源软件及Databricks产品研发。

流式计算作业从研发完成到正式上线的过程中,往往需要做充分的预上线准备。本次分享旨在从如下四个方向入手,以现场demo的形式探讨Structured Streaming生产化实践及调优:

  1. 数据源相关参数:不合理的参数会增大流式作业计算负载,导致性能降低。
  2. 计算状态参数:不合理的设置导致无止尽的状态计算及内存耗尽。
  3. 数据输出相关参数:常见的小文件问题及应对建议。
  4. 线上作业的修改:针对已有checkpoint的线上作业修改思路及方案。

Apache Spark 3.0对Prometheus监控的原生支持

周康
花名榆舟,阿里云EMR技术专家。开源爱好者,是 Apache Spark/Hadoop/Parquet 等项目的贡献者。关注大规模分布式计算、调度、存储等系统,先后从事过 Spark、OLAP、Hadoop Yarn 等相关工作的落地。目前主要专注在 EMR 大数据上云的相关工作。

Apache Spark实现了一个支持可配置的metrics system,用户在生产环境中可以将Spark提供的metrics数据(包括driver、executor等)推送到多种Sink。Prometheus是一个开源的分布式监控系统,尤其在云原生时代被广泛使用。
Apache Spark也支持以Prometheus作为Sink,将metrics数据推送到Prometheus中来进行监控和报警。目前常见的实现方式有下面几种:

  1. 使用jmx exporter和Spark的JMXSink结合的方式;
  2. 使用第三方库;
  3. 实现Sink插件来支持更复杂的metrics;
    本次分享会为大家介绍在Apache Spark 3.0中对Prometheus监控的原生支持,包括如何使用Prometheus特性、目前已经实现的metrics、以及如何对structured streaming 作业进行监控等。

钉钉群同步直播,欢迎钉钉扫码加入Apache Spark中国技术交流社区!
二维码.JPG

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
image.png

Apache Spark技术交流社区公众号,微信扫一扫关注
image.png

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
3月前
|
人工智能 自然语言处理 架构师
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
|
7月前
|
人工智能 Go 开发者
NPCon2023 AI模型技术与应用峰会(北京站)--------全链路搭建AI研发底座 参会感受
NPCon2023 AI模型技术与应用峰会(北京站)--------全链路搭建AI研发底座 参会感受
246 0
|
8月前
|
存储 人工智能 分布式计算
数据湖见证从 BI 到 BI+AI的关键技术演进
AI大模型时代,云计算、大数据、人工智能等技术迅猛发展,当前时期的软件工程变革已经成为行业内外的共同关注点。近日,QCon 全球软件开发大会·北京站顺利落幕,本次大会以「启航·AIGC 软件工程变革」为主题。作为QCon大会的老朋友,阿里云资深技术专家、对象存储技术负责人-罗庆超受邀出席【面向AI的存储】专场,为大家带来《数据湖见证从BI到BI+AI的关键技术演进》分享。
31284 21
|
机器学习/深度学习 人工智能 分布式计算
Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】
Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】
110 0
Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】
|
机器学习/深度学习 人工智能 搜索推荐
2022 阿里灵杰AI开发者峰会内容抢先看!
阿里灵杰AI开发者峰会将于2022年12月22日14:00准时开启线上直播。
2022 阿里灵杰AI开发者峰会内容抢先看!
|
人工智能 分布式计算 Apache
《# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】》电子版地址
# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】
145 0
《# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】》电子版地址
|
SQL 人工智能 分布式计算
DATA AI Summit 2022提及到的对 aggregate 的优化
DATA AI Summit 2022提及到的对 aggregate 的优化
186 0
DATA AI Summit 2022提及到的对 aggregate 的优化
|
云安全 边缘计算 人工智能
人工智能、云原生、边缘计算趋势洞察|“2022 智能云边开源峰会”圆满举办
人工智能、云原生、边缘计算趋势洞察|“2022 智能云边开源峰会”圆满举办
365 0
人工智能、云原生、边缘计算趋势洞察|“2022 智能云边开源峰会”圆满举办
|
机器学习/深度学习 人工智能 自然语言处理
遇到 AI 技术问题别发愁,WAVE SUMMIT 2022 全有解!
众所周知,深度学习框架已经成为推动 AI 应用大规模落地的关键力量,它不仅向上承接应用,还接壤着底层芯片,是人工智能技术体系中不可或缺的重要角色。
112 0
遇到 AI 技术问题别发愁,WAVE SUMMIT 2022 全有解!
|
机器学习/深度学习 人工智能 自然语言处理
在有关人与AI的议题中,「西部世界」并非当务之急
前几年,有一类话题非常火:「在 xx 行业,AI 正在取代人类」。但随着人们对现阶段 AI 发展的认识逐渐趋于理性,这类话题正变得越来越少。取而代之的是:「AI 能增强或延伸人哪方面的能力?」「AI 和人一起能解决哪些问题?」
266 0
在有关人与AI的议题中,「西部世界」并非当务之急