文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

2018-12-20 1428

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介):

This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.
The Apache Spark 2.4 comes packed with a lot of new functionalities: new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support and a lot of other improvements.

主讲人：李潇

  李潇现就职于Databricks，专注于Apache Spark的开发和建设。他是Apache Spark项目管理委员会成员。本科毕业于南京理工大学，后在佛罗里达大学(University of Florida)获计算机博士学位， 曾就职于IBM，获发明大师称号(Master Inventor)，在数据处理领域发表专利十余篇。(Github: gatorsmile)

直播时间：
北京时间2018.12.21（周五） 13:30 - 14:30

加入Apache Spark中国技术交流钉钉群看直播

_2018_12_05_4_48_20_meitu_1

欢迎大家扫码加入~~

文章标签：

开源大数据平台 E-MapReduce

Apache

分布式计算

Spark

关键词：

技术apache spark

apache spark apache spark

spark Apache

apache apache spark

new apache spark

社区小助手

目录

相关文章

SelectDB

|

12月前

|

消息中间件 OLAP Kafka

Apache Doris 实时更新技术揭秘：为何在 OLAP 领域表现卓越？

Apache Doris 为何在 OLAP 领域表现卓越？凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现，在分析领域展现了独特的实时更新能力。

SelectDB

901 9 9

JJLIN距离

|

11月前

|

消息中间件监控 Java

Apache Kafka 分布式流处理平台技术详解与实践指南

本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统，Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制，帮助开发者构建可靠、可扩展的实时数据流处理系统。

JJLIN距离

887 4 4

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

806 79 80

SelectDB

|

存储 SQL 缓存

Apache Doris & SelectDB 技术能力全面解析

本文将对 Doris & SelectDB 适合的分析场景和技术能力进行概述解析

SelectDB

2168 1 1

Apache Doris & SelectDB 技术能力全面解析

NineData

|

安全 Apache 数据库

【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup，5月24日深圳见！

5月24日，NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域，邀请行业专家分享技术趋势、产品实践及解决方案，助力企业构建高效安全的数据管理体系。时间：14:00-17:30；地点：深圳新一代产业园2栋20楼会议室。线下名额有限（80人），速报名参与深度交流！

NineData

379 1 1

蚂蚁数据智能技术

|

人工智能自然语言处理测试技术

新晋社区PMC李攀：“在Apache Fory，技术实力是唯一的通行证”

一起走近开源项目的幕后英雄——PMC成员

蚂蚁数据智能技术

409 0 0

灵杰开发者

|

消息中间件资源调度 API

Apache Flink 流批融合技术介绍

本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享，内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一，但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略，自动适应不同场景需求。文章详细介绍了如何通过量化指标（如isProcessingBacklog和isInsertOnly）实现这一目标，并展示了针对不同场景的具体优化措施。此外，还概述了社区当前进展及未来规划，包括将优化方案推向Flink社区、动态调整算子流程结构等。

灵杰开发者

1182 31 33

Apache Flink 流批融合技术介绍

武子康

|

存储分布式计算 druid

大数据-149 Apache Druid 基本介绍技术特点应用场景

大数据-149 Apache Druid 基本介绍技术特点应用场景

武子康

550 1 1

大数据-149 Apache Druid 基本介绍技术特点应用场景

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

788 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

720 1 1

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

分布式快照算法: Chandy-Lamport

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

HIVE MapJoin异常问题处理总结

阿里封神-大数据处理技术漫谈

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

Apache Spark 3.0 将内置支持 GPU 调度

HBase写性能优化

开源深度学习库BigDL在阿里云E-MapReduce上的实践

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

开源大数据周刊-第66期

淘天集团基于 Fluss、Paimon 与 StarRocks 构建湖流一体数据链路

EMR Serverless Spark AI Function 的双维降本实践

【直播】StarRocks Stella 2.0 发布｜具身行业训练数据圈选实战

活动报名 | Agentic Lakehouse Meetup · 北京站，从开源技术创新到多模态数据智能化

基于 StarRocks提效多模态工单标注与舆情研判的实践

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

阿里云 EMR Serverless StarRocks（Stella 2.2.0）发布：多模态处理与分析闭环，内表与湖表统一检索

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

apache

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！