开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
![](https://ucc.alicdn.com/pic/developer-ecology/646c59853ccd475f8a34dfdb1122790f.png?x-oss-process=image/resize,h_160,m_lfit)
7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】
EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。
![](https://ucc.alicdn.com/pic/developer-ecology/d4b20e1db77e42e9843455277bf4eb53.png?x-oss-process=image/resize,h_160,m_lfit)
Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一
首届Spark“数字人体”AI挑战赛已开启,奖金高达46万,欢迎大家踊跃报名!本次直播将由英特尔高级软件工程师邱鑫为大家介绍如何使用Spark, Big DL及Analytics Zoo平台,分别从Analytics Zoo & BigDL简介、Analytics Zoo入门以及Analytics Zoo提供的End-to-End Pipelines和ML Workflow等方面详细展开讲解。
![](https://ucc.alicdn.com/pic/developer-ecology/7ff0c4a760ca425fb241eb5a3f76929c.png?x-oss-process=image/resize,h_160,m_lfit)
领英如何应对Apache Spark的Scalability挑战
在集群计算引擎使用率快速增长的过程当中,会面对多维度的计算基础架构规模扩展性的挑战。同时由于Spark团队直接与Spark用户打交道,如何提升Spark用户生产力,避免“用户支持陷阱”,一直是较为头疼的问题。本次直播将由领英Spark团队软件工程师沈旻和林致远为您介绍,领英Spark 生态系统,构建多元化Spark 生态系统过程中遇到的挑战,如何提升Spark用户生成力以及如何优化Spark基础计算架构。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/FD9FF437FE7041A68DD45C22EE128D68-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。讲师简介:周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。参考文章:EMR Spark-SQL性能极致优化揭秘 Native Codegen Frameworkhttps://developer.aliyun.com/article/765156?spm=a2c6h.12873581.0.dArticle765156.5f6f47b4Mj7VpM&groupCode=aliyunemr
![](https://ucc.alicdn.com/pic/developer-ecology/90d6e79f70734a68afcd59582ab58e22.png?x-oss-process=image/resize,h_160,m_lfit)
EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二
首届Spark“数字人体”AI挑战赛已开启,奖金高达46万,欢迎大家踊跃报名!本次直播将由阿里云人工智能产品专家李博为大家介绍,Data Science节点概述,Data Science节点深度学习框架,PAI-Alink流批一体化机器学习算法平台,AutoML,FaissServer以及PAI-EMS等Data Science原子化组件。
![](https://ucc.alicdn.com/pic/developer-ecology/7746e2b8d8b7464f887d911f76722545.png?x-oss-process=image/resize,h_160,m_lfit)
使用RayOnSpark在大数据平台上运行新兴的人工智能应用
RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中,省去集群间数据传输的overhead,支持用户使用Spark处理的数据做新兴人工智能应用的开发。本次直播将由Intel大数据团队软件工程师黄凯为您介绍Ray和Intel的开源项目Analytics Zoo,开发RayOnSpark的动机和初衷,同时结合实际案例分享RayOnSpark的落地实践。
![](https://ucc.alicdn.com/pic/developer-ecology/9ec26a4a023e45a79565e7ef39db35f6.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 3.0:十年回顾,展望未来
今年是Spark发布的第十年,回顾Spark如何一步步发展到今天,其发展过程所积累的经验,以及这些经验对Spark未来发展的启发,对Spark大有脾益。在7月4日的Spark+AI SUMMIT 2020中文精华版线上峰会上,Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介:回顾过去的十年,并展望未来》的全面解析,为大家介绍了Spark的起源、发展过程及最新进展,同时展望了Spark的未来。
![](https://ucc.alicdn.com/pic/developer-ecology/95518710ed0a4d09a25ab21151ea1ac6.png?x-oss-process=image/resize,h_160,m_lfit)
Databricks数据洞察 限时免费开启公测!
企业级批流一体的Spark大数据分析平台,无论是数据分析师、数据开发工程师还是数据科学家,均可以通过Databricks数据洞察(DDI)分析平台,实现协同合作和数据共享,满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。
![](https://ucc.alicdn.com/pic/developer-ecology/2a5e15cbc9384d039ba3aaa6f7a4c4de.png?x-oss-process=image/resize,h_160,m_lfit)
自适应查询执行AQE:在运行时加速SparkSQL
SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行(AQE)的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
![](https://ucc.alicdn.com/pic/developer-ecology/684ac11e537c442ba4cf3fc469d3a687.png?x-oss-process=image/resize,h_160,m_lfit)
在kubernetes上运行apache spark:最佳实践和陷阱
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
![](https://ucc.alicdn.com/pic/developer-ecology/94b20d9e919445f58292fbe954a57325.png?x-oss-process=image/resize,h_160,m_lfit)
数据工程师眼中的 Delta lake(Delta by example)
SPARK+AI SUMMIT 2020中文精华版线上峰会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文中Databricks开源组技术主管范文臣从数据工程师的角度出发向大家介绍Delta Lake。以下是视频内容精华整理。
![](https://ucc.alicdn.com/pic/developer-ecology/69d3dee17e0d4e3ea858318737589112.png?x-oss-process=image/resize,h_160,m_lfit)
使用Databricks作为分析平台
SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享,介绍了YipitData公司基于Databricks平台搭建的分析平台。
![](https://ucc.alicdn.com/pic/developer-ecology/d1a5ced7016143c991828766ada06892.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 3.0对Prometheus监控的原生支持
阿里云EMR技术专家周康为大家带来Apache Spark 3.0对Prometheus监控的原生支持的介绍。内容包括spark 3.0以前是怎么用Prometheus进行监控的,以及spark 3.0是如何实现对Prometheus更好的本地化的支持。
![](https://ucc.alicdn.com/pic/developer-ecology/4052ad32660d43a3a786042518975f36.png?x-oss-process=image/resize,h_160,m_lfit)
利用闪存优化在Cosco基础上的Spark Shuffle
SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文中,来自Databricks开源项目组的软件工程师吴一介绍了利用Flash闪存优化在Cosco基础上的Spark Shuffle。原标题:Flash for Spark Shuffle with Cosco
![](https://ucc.alicdn.com/pic/developer-ecology/872403fd5bc0412b88faaf84640e675d.png?x-oss-process=image/resize,h_160,m_lfit)
Structured Streaming生产化实践及调优
Databricks软件工程师李元健为大家带来structured streaming生产化实践及调优的介绍。内容包括输入参数,状态参数,输出参数的调优,以及部署。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
![](https://ucc.alicdn.com/pic/developer-ecology/843de8b8df3141909df8383f580171d0.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 3.0中的SQL性能改进概览
阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
![](https://ucc.alicdn.com/pic/developer-ecology/73eac6e743744ed4a0a0e9cf123e8311.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Spark 3.0 中的向量化 IO
在 Apache Spark 3.0 中,SparkR 中引入了一种新的向量化(vectorized)实现,它利用 Apache Arrow 直接在 JVM 和 R 之间交换数据,且(反)序列化成本非常小
![](https://ucc.alicdn.com/pic/developer-ecology/7fe7a025c9194047a1c4200a779d5131.png?x-oss-process=image/resize,h_160,m_lfit)
7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】
TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/3C34AC595D874F64B2199D7FBB3B4E4C-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
TFPark: Distributed TensorFlow in Production on Apache Spark
TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。 讲师简介: 汪洋,英特尔大数据团队的机器学习工程师,专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。
![](https://ucc.alicdn.com/pic/developer-ecology/0be3acc3355c42ff8f159239d9a5660d.png?x-oss-process=image/resize,h_160,m_lfit)
大神带练, 0基础Spark训练营限时免费抢报!
Spark5天训练营由Spark 中文社区联合阿里云开发者社区联合打造,持续定期更新。第一期训练营邀请到了全 Apache Spark contributer 阵容,经过半个月对课程的精心打磨今天正式上线!限时免费抢报
![](https://ucc.alicdn.com/pic/developer-ecology/daeda88546a74966981a25334f9e4219.png?x-oss-process=image/resize,h_160,m_lfit)
再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器
此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。
![](https://ucc.alicdn.com/pic/developer-ecology/95f767dc75c7471fa22d7f5baf5094d9.jpg?x-oss-process=image/resize,h_160,m_lfit)
重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升
本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。
![](https://ucc.alicdn.com/pic/developer-ecology/5fd2e7c9d68643328d9dcecc123306b3.png?x-oss-process=image/resize,h_160,m_lfit)
7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】
为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/163629D32BBA48C39A4EAB0B4195D98A-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
通过LLVM加速SparkSQL时间窗口计算
讲师介绍:王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。议题简介为什么要优化spark时间窗口未加速前面临问题为什么要使用llvm加速而不是继续优化jvm codegen实现介绍-llvm 版本sql引擎设计如何与spark集成benchmark数据 vs spark3.0
![](https://ucc.alicdn.com/pic/developer-ecology/dd56dd50b7da4d2fa82e167814216f37.png?x-oss-process=image/resize,h_160,m_lfit)
Delta Lake 如何帮助云用户解决数据实时入库问题
Delta Lake 自发布以来得到了业界广泛的关注,其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求;其 Multi-Hop 架构 的流批一体设计极大简化了用户运维数据管道的成本,使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。 在本次演讲中,我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题,以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。
![](https://ucc.alicdn.com/pic/developer-ecology/17acb52edc3645818ed7244c515b715b.png?x-oss-process=image/resize,h_160,m_lfit)
7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/905CEB511759467598A00A43A37E450B-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
Hadoop 小文件/冷文件分析
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。
![](https://ucc.alicdn.com/pic/developer-ecology/0b5064961cbf4969b14b4b0983509ecf.png?x-oss-process=image/resize,h_160,m_lfit)
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
![](https://ucc.alicdn.com/pic/developer-ecology/70d1bdeb898c4fe6b8eac1f5b99fd56b.png?x-oss-process=image/resize,h_160,m_lfit)
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大 我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/F4F7F50FC28443619FFC36651BD339B6-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
半小时,将你的Spark SQL模型变为在线服务
SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo讲师:王太泽 第四范式特征工程数据库负责人 曾在百度担任资深研发工程师 一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。
![](https://ucc.alicdn.com/pic/developer-ecology/ec67452e90cc4c419c2a210dcc677584.jpg?x-oss-process=image/resize,h_160,m_lfit)
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。
![](https://ucc.alicdn.com/pic/developer-ecology/f638f940a11f4b9dbe26b11db34772f5.jpg?x-oss-process=image/resize,h_160,m_lfit)
我们欠国内Spark开发者的,用一场掷地有声的中文峰会来还
7月4日-5日,Apache Spark中国技术交流社区举办首次SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美summit结束第一时间为国内开发者奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合阿里云计算平台、Databricks、达摩院、英特尔、领英,在超过覆盖五万开发者的渠道进行投票,票选出了12个最受关注的大会topic进行中文讲解,邀请十几位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。直播间链接 https://developer.aliyun.com/live/43188
![](https://ucc.alicdn.com/pic/developer-ecology/7958e6c63c3b4006b36e8db8fd00a2de.png?x-oss-process=image/resize,h_160,m_lfit)
Spark Packages寻宝(一):简单易用的数据准备工具Optimus
本文主要介绍了Optimus项目,作为一个Spark的第三方库,Optimus基于PySpark,为用户提供了一套完整的数据质量探查和数据清理工具集,接口参考Pandas设计,易用且强大,非常适合大规模数据的清理准备工作。限于篇幅,还有很多Optimus的清理接口和Profile功能没有介绍,感兴趣的同学可以访问[Optimus官网](https://hi-optimus.com/)探索更多功能和用法。
![](https://ucc.alicdn.com/pic/developer-ecology/6d5dd02c6cfb43679a9c3bf958324e2f.png?x-oss-process=image/resize,h_160,m_lfit)
直播 | Delta Lake 如何帮助云用户解决数据实时入库问题
6月14日,大数据+AI Meetup 在线直播!Apache Flink Committer,阿里巴巴技术专家辛庸将现场分享《Delta Lake 如何帮助云用户解决数据实时入库问题》,还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。
![](https://vod-yq.aliyun.com/vod-7651a3/image/default/4D1A69879E7542C2B0F170EE565DD7EF-6-2.png?x-oss-process=image/resize,h_160,m_lfit)
JindoFS 存储策略和读写优化
本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合应用场景介绍对数据缓存加速的相关技术和策略。讲师介绍姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作