限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!-阿里云开发者社区

开发者社区> Apache Spark中国社区> 正文

限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!

简介: 《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略》重磅来袭!

点击下载
>>《Apache Spark 中文实战攻略(下册)》<<

或者复制该链接到浏览器完成下载或分享:https://developer.aliyun.com/topic/download?id=822

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略(下册)》—— 让企业大数据平台性能更优。阿里、Databricks、领英、Intel、Facebook 都在用!Spark 企业级最佳实践中文解读全收纳!

test
test

想看全套电子书?没问题!点击下面链接一键下载《Apache Spark 中文实战攻略(上册)》:

https://developer.aliyun.com/topic/download?id=821

关于Apache Spark

Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者,以及遍布全球570多个地方的超过30万个Spark Meetup社区成员。

精彩导读

使用 Databricks 作为分析平台

YipitData是一家咨询公司,其客户主要是投资基金以及财富五百强中的一些公司。该公司通过自己的数据产品进行分析,提供给客户相应的数据分析报告。YipitData的主要产出方式和赚钱方式就是做数据分析,其公司内部有53个数据分析师,却只有3个数据工程师。数据分析的基础是数据,所以对于该公司来说大数据分析的平台是非常重要的。阿里巴巴高级技术专家章剑锋介绍了YipitData公司基于Databricks平台搭建的分析平台。

点击查看更多内容:https://developer.aliyun.com/article/768341?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

在 kubernetes 上运行 apache spark

k8s 和 spark 的结合是出现在 spark 2.3 版本以后的事情,在此之前有几种方式。第一种就是 Standalone,大家使用的并不是非常的多。第二种是 Apache mesos,在国外用的比较多,但是市场规 模也在逐渐缩小。第三种是 Yarn,我们现在绝大多数的企业都是跑在 Yarn 的集群里面了。第四种是 Kubernetes,现在大家也逐渐的把 spark 跑在 k8s 上面。
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。

点击查看更多内容:https://developer.aliyun.com/article/768355?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

Ray on Spark

开源了BigDL之后,英特尔又开源了统一的数据分析和AI平台Analytics Zoo,用户可以根据不同的需求,在大数据的平台上直接运行由使用TensorFlow、PyTorch、Keras、Ray、等框架构建的应用。Analytics Zoo可以将用户的大数据平台作为数据存储、数据处理挖掘、特征工程、深度学习等一体化的pipeline平台。

 RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中,省去集群间数据传输的overhead,支持用户使用Spark处理的数据做新兴人工智能应用的开发。由Intel大数据团队软件工程师黄凯为大家介绍Ray和Intel的开源项目Analytics Zoo,开发RayOnSpark的动机和初衷,同时结合实际案例分享RayOnSpark的落地实践。

点击查看更多内容:https://developer.aliyun.com/article/769212?spm=a2c6h.12873581.0.0.cf4c3a18YeGsE7&groupCode=apachespark

EMR Spark-SQL性能极致优化揭秘

在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比去年的成绩,无论从性能还有性价比都取得了 2 倍+的优秀成绩!这次的优化里面,引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

阿里巴巴计算平台事业部EMR团队高级开发工程师陆路分享了EMR这一突破性的实战经验。

点击查看更多内容:https://developer.aliyun.com/article/759655?spm=a2c6h.12873581.0.0.4c7347b4kZF5up&groupCode=aliyunemr


更多精彩技术集锦,加入Apache Spark 钉钉技术交流群

test

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎加入!邀请你加入钉钉群聊Apache Spark中国技术交流社区,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,X7S/0/QcrLMkK7QZ5sw2oTvoYW49u0g5dvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接