开源大数据平台 E-MapReduce-最新-第23页-阿里云开发者社区-阿里云

开发者说

|

SQL 分布式计算 Spark

|

博文

国内Spark开发者的免费入门宝典！首发作者阵容高手云集！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

43611 0 1

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

本文将会深入介绍DATE和TIMESTAMP

8646 0 0

阿里云E-MapReduce团队

|

SQL 数据采集分布式计算

|

博文

深入研究Apache Spark 3.0的新功能

分享嘉宾 Apache Spark PMC李潇，就职于 Databricks，Spark 研发部主管，领导 Spark，Koalas，Databricks runtime，OEM 的研发团队，在直播中为大家深入讲解了Apache Spark 3.0的新功能。

3575 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Apache

|

博文

稳赚不赔～Spark社区招募志愿者！

可能是21世纪唯一不看颜值只看人品的招募

1132 0 1

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

使用Ray将可扩展的自动化机器学习（AutoML）用于时序预测

机器学习和深度学习在时序预测上有更好的表现，前提是生成好的模型。但训练出好的模型并不是那么容易的，尤其是那些新手，这也就说明了为什么AutoML越来越火。在Analytics Zoo当中用户可以使用AutoML，在很短的时间内得到满足准确度要求的模型.在2020 Spark+AI峰会直播中，由Intel高级架构师黄晟盛为您介绍时序应用典型场景，基于AutoML的时序解决方案，同时结合实际案例与大家分享与客户的合作经验和反馈。

1564 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。

1586 0 0

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一

首届Spark“数字人体”AI挑战赛已开启，奖金高达46万，欢迎大家踊跃报名！本次直播将由英特尔高级软件工程师邱鑫为大家介绍如何使用Spark， Big DL及Analytics Zoo平台，分别从Analytics Zoo & BigDL简介、Analytics Zoo入门以及Analytics Zoo提供的End-to-End Pipelines和ML Workflow等方面详细展开讲解。

1621 0 1

开发者说

|

SQL 消息中间件分布式计算

|

博文

领英如何应对Apache Spark的Scalability挑战

在集群计算引擎使用率快速增长的过程当中，会面对多维度的计算基础架构规模扩展性的挑战。同时由于Spark团队直接与Spark用户打交道，如何提升Spark用户生产力，避免“用户支持陷阱”，一直是较为头疼的问题。本次直播将由领英Spark团队软件工程师沈旻和林致远为您介绍，领英Spark 生态系统，构建多元化Spark 生态系统过程中遇到的挑战，如何提升Spark用户生成力以及如何优化Spark基础计算架构。

1220 0 1

Dev-Talk

|

视频

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。讲师简介：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。参考文章：EMR Spark-SQL性能极致优化揭秘 Native Codegen Frameworkhttps://developer.aliyun.com/article/765156?spm=a2c6h.12873581.0.dArticle765156.5f6f47b4Mj7VpM&groupCode=aliyunemr

2214 0 0

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

首届Spark“数字人体”AI挑战赛已开启，奖金高达46万，欢迎大家踊跃报名！本次直播将由阿里云人工智能产品专家李博为大家介绍，Data Science节点概述，Data Science节点深度学习框架，PAI-Alink流批一体化机器学习算法平台，AutoML，FaissServer以及PAI-EMS等Data Science原子化组件。

1047 0 0

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

使用RayOnSpark在大数据平台上运行新兴的人工智能应用

RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中，省去集群间数据传输的overhead，支持用户使用Spark处理的数据做新兴人工智能应用的开发。本次直播将由Intel大数据团队软件工程师黄凯为您介绍Ray和Intel的开源项目Analytics Zoo，开发RayOnSpark的动机和初衷，同时结合实际案例分享RayOnSpark的落地实践。

1768 0 1

开发者说

|

SQL 机器学习/深度学习分布式计算

|

博文

Apache Spark 3.0：十年回顾，展望未来

今年是Spark发布的第十年，回顾Spark如何一步步发展到今天，其发展过程所积累的经验，以及这些经验对Spark未来发展的启发，对Spark大有脾益。在7月4日的Spark+AI SUMMIT 2020中文精华版线上峰会上，Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介：回顾过去的十年，并展望未来》的全面解析，为大家介绍了Spark的起源、发展过程及最新进展，同时展望了Spark的未来。

9110 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Databricks数据洞察限时免费开启公测！

企业级批流一体的Spark大数据分析平台，无论是数据分析师、数据开发工程师还是数据科学家，均可以通过Databricks数据洞察（DDI)分析平台，实现协同合作和数据共享，满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。

823 0 0

开发者说

|

分布式计算 Java 大数据

|

博文

自适应查询执行AQE：在运行时加速SparkSQL

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行（AQE）的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

3862 1 2

开发者说

|

存储分布式计算资源调度

|

博文

在kubernetes上运行apache spark：最佳实践和陷阱

阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍，Spark on k8s，以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

4828 0 0

开发者说

|

SQL JSON 分布式计算

|

博文

数据工程师眼中的 Delta lake（Delta by example）

SPARK+AI SUMMIT 2020中文精华版线上峰会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文中Databricks开源组技术主管范文臣从数据工程师的角度出发向大家介绍Delta Lake。以下是视频内容精华整理。

2501 0 0

开发者说

|

存储 JSON 分布式计算

|

博文

使用Databricks作为分析平台

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享，介绍了YipitData公司基于Databricks平台搭建的分析平台。

3028 0 0

开发者说

|

Prometheus 分布式计算监控

|

博文

Apache Spark 3.0对Prometheus监控的原生支持

阿里云EMR技术专家周康为大家带来Apache Spark 3.0对Prometheus监控的原生支持的介绍。内容包括spark 3.0以前是怎么用Prometheus进行监控的，以及spark 3.0是如何实现对Prometheus更好的本地化的支持。

3824 0 1

开发者说

|

存储缓存分布式计算

|

博文

利用闪存优化在Cosco基础上的Spark Shuffle

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文中，来自Databricks开源项目组的软件工程师吴一介绍了利用Flash闪存优化在Cosco基础上的Spark Shuffle。原标题：Flash for Spark Shuffle with Cosco

1289 0 0

开发者说

|

弹性计算分布式计算流计算

|

博文

Structured Streaming生产化实践及调优

Databricks软件工程师李元健为大家带来structured streaming生产化实践及调优的介绍。内容包括输入参数，状态参数，输出参数的调优，以及部署。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

1853 0 0

开发者说

|

SQL 分布式计算 Java

|

博文

Apache Spark 3.0中的SQL性能改进概览

阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

4113 0 0

开源大数据EMR

|

SQL 分布式计算 Java

|

博文

Apache Spark 3.0 中的向量化 IO

在 Apache Spark 3.0 中，SparkR 中引入了一种新的向量化（vectorized）实现，它利用 Apache Arrow 直接在 JVM 和 R 之间交换数据，且(反)序列化成本非常小

2667 58 58

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

TFPark是开源AI平台Analytics Zoo中一个模块，它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面，TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中，而无需对现有集群做任何修改；另一方面TFPark屏蔽了复杂的分布式系统逻辑，可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用，内部实现以及在生产环境中的实际案例。

900 57 57

Dev-Talk

|

视频

TFPark: Distributed TensorFlow in Production on Apache Spark

TFPark是开源AI平台Analytics Zoo中一个模块，它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面，TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中，而无需对现有集群做任何修改；另一方面TFPark屏蔽了复杂的分布式系统逻辑，可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用，内部实现以及在生产环境中的实际案例。讲师简介：汪洋，英特尔大数据团队的机器学习工程师，专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。

1131 0 1

开源大数据EMR

|

SQL 人工智能分布式计算

|

博文

大神带练， 0基础Spark训练营限时免费抢报！

Spark5天训练营由Spark 中文社区联合阿里云开发者社区联合打造，持续定期更新。第一期训练营邀请到了全 Apache Spark contributer 阵容，经过半个月对课程的精心打磨今天正式上线！限时免费抢报

1752 57 57

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

5486 57 57

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器

此前 Jindo DistCp 仅限于E-MapReduce产品内部使用，此次全方位面向整个阿里云OSS/HDFS用户放开，并提供官方维护和支持技术，欢迎广大用户集成和使用。

3339 0 1

问问小秘

|

机器学习/深度学习人工智能分布式计算

|

博文

大神带练， 0基础Spark训练营限时免费抢报！

1702 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

重磅：阿里云 JindoFS SDK 全面开放使用，OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储，以及使用它来提升我们操作OSS文件的性能。值得一提的是，此前JindoFS SDK 仅限于E-MapReduce产品内部使用，此次全方位面向整个阿里云OSS用户放开，并提供官方维护和支持技术，欢迎广大用户集成和使用。

7447 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

|

博文

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0

1084 0 0

Dev-Talk

|

视频

通过LLVM加速SparkSQL时间窗口计算

讲师介绍：王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。议题简介为什么要优化spark时间窗口未加速前面临问题为什么要使用llvm加速而不是继续优化jvm codegen实现介绍-llvm 版本sql引擎设计如何与spark集成benchmark数据 vs spark3.0

1523 0 0

阿里云E-MapReduce团队

|

SQL 人工智能分布式计算

|

博文

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

23193 0 0

阿里云E-MapReduce团队

|

人工智能分布式计算 Spark

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

1112 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件存储

|

博文

Delta Lake 如何帮助云用户解决数据实时入库问题

Delta Lake 自发布以来得到了业界广泛的关注，其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求；其 Multi-Hop 架构的流批一体设计极大简化了用户运维数据管道的成本，使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。在本次演讲中，我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题，以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。

3887 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Cloud Native

|

博文

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本，提高热数据的访问性能。

4257 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

1974 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL Web App开发

|

博文

SPARK中文峰会上海会场预告篇｜Ray On Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会，上海会场的讲师议题介绍来咯～

1719 0 0

西门小刚刚9630297551

|

文件存储对象存储块存储

|

问答

阿里云共享块存储和NAS还有OSS的区别是什么呀

8254 4 0

阿里云E-MapReduce团队

|

分布式计算 Hadoop 大数据

|

博文

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响，严重时甚至影响业务稳定性，这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法，并基于分析结果可以采取哪些处理措施。

1043 0 0

Dev-Talk

|

视频

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响，严重时甚至影响业务稳定性，这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法，并基于分析结果可以采取哪些处理措施。讲师：郭聪，花名析源，阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1600 0 0

阿里云E-MapReduce团队

|

分布式计算 Prometheus Kubernetes

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

2714 0 0

阿里云E-MapReduce团队

|

SQL 人工智能缓存

|

博文

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

2997 0 0

阿里云E-MapReduce团队

|

人工智能分布式计算达摩院

|

博文

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月spark社区活动ing～

1208 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

|

博文

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

928 0 0

Dev-Talk

|

视频

半小时，将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo讲师：王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

1966 54 54

问问小秘

|

分布式数据库 Hbase

|

问答

Hologres 是对标 ClickHouse + Hbase + ...？,是如何把这些能力全部都

6510 1 0

问问小秘

|

问答

Spark3.0在实时数仓易用性方面有何提升吗？例如读取binlog写入delta lake

1904 1 0

问问小秘

|

问答

Spark3.0适合生产环境吗？从2.x从迁移到3.x成本有哪些？

2238 1 0

问问小秘

|

流计算

|

问答

spark3.0 在实时性和flink差异大吗？

2702 1 0

问问小秘

|

分布式计算 Spark

|

问答

spark 3.0 对code generation 有什么更新或者改进么

1393 1 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

国内Spark开发者的免费入门宝典！首发作者阵容高手云集！

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

深入研究Apache Spark 3.0的新功能

稳赚不赔～Spark社区招募志愿者！

使用Ray将可扩展的自动化机器学习（AutoML）用于时序预测

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一

领英如何应对Apache Spark的Scalability挑战

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

使用RayOnSpark在大数据平台上运行新兴的人工智能应用

Apache Spark 3.0：十年回顾，展望未来

Databricks数据洞察 限时免费开启公测！

自适应查询执行AQE：在运行时加速SparkSQL

在kubernetes上运行apache spark：最佳实践和陷阱

数据工程师眼中的 Delta lake（Delta by example）

使用Databricks作为分析平台

Apache Spark 3.0对Prometheus监控的原生支持

利用闪存优化在Cosco基础上的Spark Shuffle

Structured Streaming生产化实践及调优

Apache Spark 3.0中的SQL性能改进概览

Apache Spark 3.0 中的向量化 IO

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

TFPark: Distributed TensorFlow in Production on Apache Spark

大神带练， 0基础Spark训练营限时免费抢报！

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器

大神带练， 0基础Spark训练营限时免费抢报！

重磅：阿里云 JindoFS SDK 全面开放使用，OSS 文件各项操作性能得到大幅提升

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

通过LLVM加速SparkSQL时间窗口计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

Delta Lake 如何帮助云用户解决数据实时入库问题

JindoFS - 分层存储

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK中文峰会上海会场预告篇｜Ray On Spark

阿里云共享块存储和NAS还有OSS的区别是什么呀

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

Hadoop 小文件/冷文件分析

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

半小时，将你的Spark SQL模型变为在线服务

Hologres 是对标 ClickHouse + Hbase + ...？,是如何把这些能力全部都

Spark3.0在实时数仓易用性方面有何提升吗？例如读取binlog写入delta lake

Spark3.0适合生产环境吗？从2.x从迁移到3.x成本有哪些？

spark3.0 在实时性和flink差异大吗？

spark 3.0 对code generation 有什么更新或者改进么

活跃用户

相关产品

Databricks数据洞察限时免费开启公测！