这次的计算平台大数据训练营会涵盖阿里云计算平台几乎所有的产品。从第一期实时计算Flink开始,到离线和实时一体化的数仓MaxCompute、Hologres。
本期训练营会讲到开源大数据的全家桶——阿里云 EMR、ElasticSearch、实时计算Flink;也会讲到机器学习平台PAI和数据综合治理平台DataWork等等。每一个板块都会邀请各个领域的技术专家,无论是你对数仓、数据湖、大数据建模,还是机器学习、搜索引擎以及其他的数据智能各种应用感兴趣,总会有一款适合你。
带着前所未有的创新领域和豪华的嘉宾阵容,大数据训练营欢迎大家一起来体验和尝试。
这次训练营有什么福利?
很多同学想知道这次训练营都有哪些福利,那么今天阿里妹就为你提前“剧透”——来自“E-MapReduce入门训练营”的《Apache Spark 中文实战攻略》。在国内Spark参考资料稀缺的情况下,EMR团队出品的这套专为国内Spark开发者定制的实战图鉴绝对是你上手Spark的尖兵利器!
获得的方法非常简单——现在免费报名参与EMR入门训练营或其他大数据训练营,全套上下册电子书100%免费得!
话不多说,让阿里妹带你先睹为快,看看《Apache Spark 中文实战攻略(上册)》都有哪些精彩内容吧!
这本神奇的图鉴都有哪些内容?
《Apache Spark 中文实战攻略》分上下两册,汇聚国内外顶级大厂技术专家多年的实战经验,带你走进全球顶级开源社区之一Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。
今天为大家展示的是《Apache Spark 中文实战攻略(上册)》—— 让你的数据处理更简单!全新收录了Spark+AI Summit 2020 中文精华版峰会,Apache Spark 3.0 性能优化与基础实战一书看遍!
关于Apache Spark
Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者,以及遍布全球570多个地方的超过30万个SparkMeetup社区成员。
精彩导读
ApacheSpark 3.0:十年回顾,展望未来
Spark 3.0是Spark有史以来最大的Release,共包含3400多个patch,几乎一半的patch都属于Spark SQL。SparkSQL的优化不仅服务于SQL language,还服务于机器学习、流计算和Dataframes等计算任务,这使得社区对Spark SQL的投入非常大。此外,Spark团队还付出了大量努力使Spark 2.0的用户方便地升级到3.0。
今年是Spark发布的第十年,回顾Spark如何一步步发展到今天,其发展过程所积累的经验,以及这些经验对Spark未来发展的启发,对Spark大有脾益。Databricks Spark研发部主管李潇带来了Apache Spark 3.0简介的全面解析,为大家介绍了Spark的起源、发展过程及最新进展,同时展望了Spark的未来。
数据湖:数据工程师的得力助手
相信作为一个数据工程师,心中都有这么一个理想的工具:
- 可以持续不断地对各种各样的数据源进行增量处理
- 批流合一
- 处理速率高效,智能化生成报表
在本书中,Databricks开源组技术主管范文臣将从数据工程师的角度出发向大家介绍Delta Lake到底是什么。
实时数仓,快速构建Near-RealTime的Data Pipeline
当离线的同步方案已经不能满足业务需求,现有离线任务基本都是动辄几百行SQL,逻辑复杂。在本书中,核桃编程数据架构师卢圣刚将为你分享——应用EMR建设 Delta Lake实时数仓的实践经验。
SQL性能改进:不断进化
从Spark 2.4开始,大概有超过一年半的时间。对于一个比较活跃的开源项目来说,这个时间是非常长的,所以里面包含了大量的功能增强及性能优化等新的feature在里面。大概超过50%相关的issue都是和SQL相关的。快来下载电子书,让阿里巴巴高级技术专家李呈祥为你带来Apache Spark 3.0中的SQL性能改进概览的介绍吧。
更多精彩内容和周边免费拿,尽在“E-MapReduce 入门训练营”!4天入门EMR,get最好用的云上数据湖解决方案,赶快报名吧!
活动详情:点击这里