限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略》重磅来袭!

点击下载
>>《Apache Spark 中文实战攻略(下册)》<<

或者复制该链接到浏览器完成下载或分享:https://developer.aliyun.com/topic/download?id=822

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略(下册)》—— 让企业大数据平台性能更优。阿里、Databricks、领英、Intel、Facebook 都在用!Spark 企业级最佳实践中文解读全收纳!

test
test

想看全套电子书?没问题!点击下面链接一键下载《Apache Spark 中文实战攻略(上册)》:

https://developer.aliyun.com/topic/download?id=821

关于Apache Spark

Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者,以及遍布全球570多个地方的超过30万个Spark Meetup社区成员。

精彩导读

使用 Databricks 作为分析平台

YipitData是一家咨询公司,其客户主要是投资基金以及财富五百强中的一些公司。该公司通过自己的数据产品进行分析,提供给客户相应的数据分析报告。YipitData的主要产出方式和赚钱方式就是做数据分析,其公司内部有53个数据分析师,却只有3个数据工程师。数据分析的基础是数据,所以对于该公司来说大数据分析的平台是非常重要的。阿里巴巴高级技术专家章剑锋介绍了YipitData公司基于Databricks平台搭建的分析平台。

点击查看更多内容:https://developer.aliyun.com/article/768341?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

在 kubernetes 上运行 apache spark

k8s 和 spark 的结合是出现在 spark 2.3 版本以后的事情,在此之前有几种方式。第一种就是 Standalone,大家使用的并不是非常的多。第二种是 Apache mesos,在国外用的比较多,但是市场规 模也在逐渐缩小。第三种是 Yarn,我们现在绝大多数的企业都是跑在 Yarn 的集群里面了。第四种是 Kubernetes,现在大家也逐渐的把 spark 跑在 k8s 上面。
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。

点击查看更多内容:https://developer.aliyun.com/article/768355?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

Ray on Spark

开源了BigDL之后,英特尔又开源了统一的数据分析和AI平台Analytics Zoo,用户可以根据不同的需求,在大数据的平台上直接运行由使用TensorFlow、PyTorch、Keras、Ray、等框架构建的应用。Analytics Zoo可以将用户的大数据平台作为数据存储、数据处理挖掘、特征工程、深度学习等一体化的pipeline平台。

 RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中,省去集群间数据传输的overhead,支持用户使用Spark处理的数据做新兴人工智能应用的开发。由Intel大数据团队软件工程师黄凯为大家介绍Ray和Intel的开源项目Analytics Zoo,开发RayOnSpark的动机和初衷,同时结合实际案例分享RayOnSpark的落地实践。

点击查看更多内容:https://developer.aliyun.com/article/769212?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

EMR Spark-SQL性能极致优化揭秘

在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比去年的成绩,无论从性能还有性价比都取得了 2 倍+的优秀成绩!这次的优化里面,引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

阿里巴巴计算平台事业部EMR团队高级开发工程师陆路分享了EMR这一突破性的实战经验。

点击查看更多内容:https://developer.aliyun.com/article/759655?spm=a2c6h.12873581.0.0.4c7347b4kZF5up&groupCode=aliyunemr


更多精彩技术集锦,加入Apache Spark 钉钉技术交流群

test

藏经阁系列电子书

阿里云开发者社区——藏经阁系列电子书,汇聚了一线大厂的技术沉淀精华,爆款不断。
点击链接获取海量免费电子书:https://developer.aliyun.com/ebook

开发者藏经阁.jpg

相关文章
|
3月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
185 0
|
10月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
667 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
分布式计算 运维 Serverless
E-MapReduce Serverless Spark开发者评测
**EMR Serverless Spark测评概要** - 弹性处理大规模用户行为分析,提升产品优化与推荐精度。 - 相比自建Spark集群,EMR Serverless Spark展现更高稳定性、性能,降低成本,简化运维。 - 支持多种数据源,提供Spark SQL与DataFrame API,自动资源调度,适用于波动需求。 - 文档清晰,但可增强特定场景指导与故障排查。 - 建议优化监控、调度算法,增加内置分析工具,并强化与其他阿里云产品(如MaxCompute, DataWorks, QuickBI)的联动。 - 全托管服务减轻运维负担,但资源管理、查询效率与兼容性仍有提升空间。
174 1
|
分布式计算 监控 大数据
spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径
spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径
176 1
|
存储 分布式计算 Spark
实战|使用Spark Streaming写入Hudi
实战|使用Spark Streaming写入Hudi
443 0
|
机器学习/深度学习 分布式计算 大数据
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
180 1
|
SQL 存储 大数据
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
433 0
|
机器学习/深度学习 分布式计算 搜索推荐
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
410 0
|
机器学习/深度学习 分布式计算 前端开发
【大数据技术】Spark MLlib机器学习线性回归、逻辑回归预测胃癌是否转移实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习线性回归、逻辑回归预测胃癌是否转移实战(附源码和数据集)
151 0