开发者社区精选直播合集 | Spark最佳实践

简介: Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark是一种与Hadoop相似的开源集群计算环境,但Spark在某些工作负载方面表现得更加优越,本合集整理Spark最佳实践分享,带你直观感受它的优越性,并从“巨人”肩上大受启发,速藏!

往期精选合集包(戳我前往)

囊括了:AI、架构师、 Serverless 、AIoT、DevOps、容器化、机器学习、云计算、K8s、微服务、云原生、视觉AI、大数据、小程序、物联网等各种主题直播合集。

huagai_VCG41N588365450_RF_2M.jpg

Spark SQL模型变为在线服务

image.png
讲师:王太泽,第四范式特征工程数据库负责人
推荐理由:SparkSQ在机器学习场景中应用模型从批量到实时面临的问题诸如SparkSQL转换成实时执行成本高、离线特征和在线特征保持一致困难、离线效果与在线效果差距大等如何解?本视频一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题的第四范式特征工程数据库负责人王太泽给你分享经验,并用SparkSQL实时上线demo给你分析他们与传统实现方式的优势。戳我观看

基于 Spark 打造高效云原生数据分析引擎

image.png

讲师:辛庸,阿里巴巴计算平台事业部 EMR 技术专家
推荐理由:由阿里巴巴 EMR 团队提交的 TPC-DS 成绩如何能在九月份的榜单中取得了排名第一的成绩?本视频阿里巴巴计算平台事业部 EMR 技术专家选取一些有代表性的优化点,深入到技术细节做详细介绍,带你了解动态过滤、CBO增强、TopK排序等等,给你展示这个成绩背后EMR 团队对 Spark 执行引擎持续不断的优化成果。戳我观看

Tblestore结合Spark的云上流批一体大数据架构

image.png

讲师:王卓然, 花名琸然 阿里云存储服务技术专家
推荐理由:传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本视频阿里云存储服务技术专家琸然结合理论讲解和实际场景为你一一解答。戳我观看

基于Spark与TensorFlow的机器学习实践

image.png

讲师:吴威(无谓), 阿里巴巴高级技术专家
推荐理由:Apache Spark是目前最火热的计算框架, TensorFlow是目前最火热的机器学习框架,两者个碰撞到一起会产生什么巨大的火花?本视频通过EMR和PAI在这个上面的实践给你展示。戳我观看

Spark Relational Cache实现亚秒级响应的交互式分析

image.png

讲师:王道远(健身),阿里云EMR技术专家
推荐理由:Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求怎么办?本视频阿里云EMR技术专家王道远通过Spark Relational Cache的实现原理和使用场景,带你了解如何通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,显著提高查询速度,实现亚秒级的响应。戳我观看

目录
相关文章
|
11月前
|
存储 分布式计算 Cloud Native
[实战系列]SelectDB Cloud Spark Connector 最佳实践
Spark SelectDB Connector 以 Spark 这个大数据计算的优秀组件作为核心,实现了利用 Spark 将外部数据源的大数据量同步到 SelectDB Cloud,便于我们实现大批量数据的快速同步,继而利用 SelectDB Cloud 为基石构建新一代的云原生数据仓库,结合 SelectDB Cloud 强大的分析计算性能,能够为企业带来业务便捷性以及增效将本的目标。
115 0
|
SQL 分布式计算 Spark
|
存储 分布式计算 资源调度
在kubernetes上运行apache spark:最佳实践和陷阱
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
3844 0
在kubernetes上运行apache spark:最佳实践和陷阱
|
SQL 机器学习/深度学习 存储
Spark 大数据处理最佳实践
欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师讨论交流~ 点击该链接直接观看直播回放:https://developer.aliyun.com/live/247072
Spark 大数据处理最佳实践
|
存储 分布式计算 资源调度
降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长,如何优化大数据平台,真正实现降本增效,技术人也面临着非常大的挑战,近半年趣头条和阿里云一起合作,通过Spark Remote Shuffle Service取得了较大的进展,在这里大家可以更加详细地了解这套方案。
11052 2
|
SQL 分布式计算 API
Spark最佳实践-项目规范
前言 大数据开发的日常工作中,开发人员经常需要使用 Spark、Flink 等计算引擎作为工具来实现一些 业务逻辑 的计算。 以 Spark 为例,开发人员会使用 SparkSQL、DataFrame、RDD 等不同形式的API来实现业务需求。
2200 0
|
关系型数据库 分布式数据库 分布式计算
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
部分RDS和POLARDB For MySQL的用户曾遇到如下场景:当一张表的数据达到几千万时,你查询一次所花的时间会变多。 这时候采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。 本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓,做统一的大数据计算。
6685 0
|
关系型数据库 分布式数据库 PolarDB
RDS&POLARDB归档到X-Pack Spark计算最佳实践
业务背景 对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到,当一张的数据达到几千万时,你查询一次所花的时间会变多。这时候会采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。
2180 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
162 0
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。