SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

Spark中文峰会第二日,就在本周日上午杭州会场,错过悔十年的压轴好戏来了~

SPARK + AI SUMMIT 2020 中文精华版线上峰会,十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击详细议程


7月5日上午议题:

吴一.jpg
范文臣.jpg
沈旻-林致远.jpg
李博.jpg


利用闪存优化在Cosco基础上的Spark Shuffle

吴一
Databicks开源项目组软件工程师,主要参与开源社区Spark和公司产品Databricks Runtime的研发。最近两年专注于Spark及大数据技术领域,现在是Spark社区的活跃贡献(GitHub@Ngone51)。

Cosco是由FaceBook推出的一种高效且可靠的shufflle服务。Cosco建立在分布式内存共享池的内存聚合基础之上,相较于Spark内置的shufflle,能提供更高效的磁盘利用率。本次议题将会介绍如何通过增加少量闪存来进一步提升shuffle的效率:闪存减少了内存使用,而更大的预写(聚合)缓冲区则进一步减少了磁盘IO。通过严谨的实验和分析,我们还证明了,即使是对于shuffle这种一次写入/一次读取的作业,动态地利用内存和闪存也能保护闪存的持久性。
本次议题还将讨论闪存如何集成到Cosco的架构中和所采用的部署模式,以及通过在大规模生产环境中部署所汲取到的经验教训和潜在的未来工作。


数据工程师眼中的Delta Lake

范文臣
Databricks 开源组技术主管,Apache Spark Committer、PMC成员。Spark开源社区核心开发之一,主导和参与了很多Spark重要特性的研发,例如代码生成,CBO, Dataset, AQE 等。

Delta Lake 是一个提供 ACID 事务能力的开源大数据储存层。它基于开放的Parquet文件格式,支持数据快照、批流合一、schema演进、数据更新和删除等常用功能。本次演讲从实践角度出发,讲解Delta Lake如何帮助企业构建可靠的数据湖解决方案。


领英如何应对 Apache Spark 的scalability 挑战

沈旻
领英Spark团队的技术负责人。领英Spark团队主要负责构建并扩展基于Apache Spark的领英线下批处理分析平台,并提供对领英内部多种使用场景的支持。在此之前,沈旻主要从事Apache YARN上的相关工作。他本科就读于南京大学软件工程专业,并于伊利诺伊芝加哥分校获得计算机专业博士学位。
林致远
领英Spark团队的软件工程师,负责解决各种平台难题并为Spark提供用例支持。工作主要侧重于对集群上Spark应用程序的实时数据追踪采集、各项指标分析等来优化系统并提高领英Spark用户的工作效率。她本科就读于武汉大学和加州大学伯克利分校计算机专业,后于卡内基梅隆大学取得硕士学位,专攻分布式系统方向。

在过去的三年多里,Apache Spark在领英发展迅速,已经从一个内部实验项目变成了如今公司内占主导地位的计算引擎。仅在过去的一年中,领英日均Spark应用数量就增长了3倍。如今,Spark在领英涵盖了包括人工智能,数据工程,A/B测试,数据分析等多维度的使用场景。数千名领英Spark用户日均提交约3万个Spark应用,这些应用在我们集群上处理着数PB的数据。在这个快速增长的过程中,我们在扩展Spark基础架构和赋能用户高效开发Spark应用上面临着多个维度的挑战:

  1. 解决Spark基础架构可扩展性上的瓶颈:优化Spark各核心组件,比如Shuffle service和History Server
  2. 寻求有限的计算资源和高速增长的计算需求之间的平衡:优化集群资源调度
  3. 在提升用户开发效率的同时避免Spark团队陷入用户支持陷阱:自动化异常分析等工具。

在这场演讲中,我们会分享我们为应对这些挑战所做的工作以及心得体会。


Spark“数字人体”AI挑战赛赛题解析二-EMR-DataScience节点介绍

李博
李博,花名傲海,阿里云人工智能产品专家,从事人工智能行业5年,主要负责人工智能平台类产品化建设工作。参与过阿里云机器学习平台PAI的产品设计以及EMR人工智能节点的设计。著有《机器学习实践应用》一书。

本次直播将培训Spark天池大赛的选手了解EMR-DataScience节点


相关阅读
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK中文峰会上海会场预告篇|Ray On Spark


钉钉群同步直播,欢迎钉钉扫码加入Apache Spark中国技术交流社区!
二维码.JPG

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
image.png

Apache Spark技术交流社区公众号,微信扫一扫关注
image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
1月前
|
人工智能 自然语言处理 搜索推荐
Spark-TTS: AI语音合成的"变声大师"
Spark-TTS 是一款革命性的语音合成模型,被誉为“变声大师”。它通过创新的 BiCodec 技术将语音分解为语义和全局两种 Token,实现对音色、性别、语速等属性的精细控制。结合统一的 LLM 架构,Spark-TTS 简化了传统 TTS 的复杂流程,同时提供了前所未有的灵活性。此外,团队还发布了 VoxBox 开源数据集,为行业提供标准评估基准。尽管在零样本场景下仍存改进空间,但 Spark-TTS 已经开启了语音合成新时代,让个性化、可控的 AI 语音成为可能。
205 4
|
2月前
|
人工智能 架构师 关系型数据库
第二届固件技术峰会盛大召开,共探 AI 时代固件创新之路
阿里云联合字节跳动、固件联盟主办的第二届固件技术峰会在长沙顺利召开,探索AI时代固件技术发展新趋势。
|
2月前
|
人工智能 城市大脑 运维
2025数字中国建设峰会:阿里云+AI深入千行百业
近日,第八届数字中国建设峰会在福州召开。峰会期间,阿里云及通义大模型服务政企的一批领先成果被重点展示。
326 1
|
4月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
4月前
|
人工智能 开发者
AI Forward: Alibaba Cloud Developer Summit 2025 开放注册中
AI Forward: Alibaba Cloud Developer Summit 2025 开放注册中
|
4月前
|
人工智能 Go 开发者
倒计时1天!这里查收AI Forward: Alibaba Cloud Developer Summit 2025大会议程
倒计时1天!这里查收AI Forward: Alibaba Cloud Developer Summit 2025大会议程
|
8月前
|
人工智能 运维 安全
阿里云研发副总裁蔡德忠受邀参加乌镇峰会,畅谈AI与下一代互联网
2024年乌镇峰会“下一代互联网论坛”近日举办,主题为“创新驱动,安全赋能,共筑开放与安全的下一代互联网”。阿里云智能集团研发副总裁,基础设施网络研发负责人蔡德忠受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。
|
9月前
|
人工智能 关系型数据库 数据中心
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
|
9月前
|
人工智能 运维 关系型数据库
携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会
阿里云服务器研发受邀和UALink联盟一起,在OCP全球峰会上重点阐述AI服务器Scale UP互连技术领域发展趋势
|
22天前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。