开源大数据平台 E-MapReduce-博文-第7页-阿里云开发者社区-阿里云

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

如何实现Spark on Kubernetes？

大数据时代，以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求，Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火，很多数字化企业已经把在线业务搬到了Kubernetes之上，并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战？又该如何解决？

20858 0 0

阿里云E-MapReduce团队

|

存储 SQL 机器学习/深度学习

|

博文

数据湖架构，为什么需要“湖加速”？

湖加速即为数据湖加速，是指在数据湖架构中，为了统一支持各种计算，对数据湖存储提供适配支持，进行优化和缓存加速的中间层技术。那么为什么需要湖加速？数据湖如何实现“加速”？本文将从三个方面来介绍湖加速背后的原因，分享阿里云在湖加速上的实践经验和技术方案。

35788 0 0

温柔的养猫人

|

存储缓存分布式计算

|

博文

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

《阿里云云原生数据湖体系全解读》涵盖数据湖存储、加速、构建、计算、治理，一站搭建全新云原生数据湖体系，完成企业大数据架构转型。速度下载收藏！

96556 6 6

阿里云E-MapReduce团队

|

大数据

|

博文

欢迎加入 databricks 数据洞察产品交流钉钉群

一起大数据吧！

7110 0 0

阿里云E-MapReduce团队

|

分布式计算大数据

|

博文

欢迎加入 E- MapReduce 钉钉产品交流群

一起大数据吧

3197 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

JindoFS 存储策略和读写优化

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段，并结合JindoFS应用场景介绍对数据缓存加速的相关技术和策略。

2751 0 1

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

官宣！阿里云重磅发布云原生数据湖体系

介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建（Data Lake Formation，DLF）等基础服务，同时结合阿里云上丰富的计算引擎，打造一个全新云原生数据湖体系。

39749 0 2

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题，阿里云的DataWorks作为一个通用的大数据平台，除了很好的解决了数仓场景的各类问题，也同样解决了数据湖场景中的核心痛点。

24406 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

Serverless Spark的弹性利器 - EMR Shuffle Service

在传统计算存储混合的架构中，为了兼顾计算和存储，CPU和存储设备都不能太差，因此牺牲了灵活性，提高了成本。在计算存储分离架构中，可以独立配置计算机型和存储机型，具有极大的灵活性，从而降低成本。

19343 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

云原生计算引擎挑战与解决方案

云原生比较有前景的实现就是Kubernetes，所以有时候我们一提到云原生，几乎就等价于是Kubernetes。

15646 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

Change Data Capture(CDC)用来跟踪捕获数据源的数据变化，并将这些变化同步到目标存储(如数据湖或数据仓库)，用于数据备份或后续分析，同步过程可以是分钟/小时/天等粒度，也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。

12842 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

多数据源一站式入湖

通过一站式入湖，将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中，解决了企业面临的数据孤岛问题，为统一的数据分析打好了基础.

12653 0 1

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

多引擎集成挖掘湖上数据价值

在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK，同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持，所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。

5081 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

数据湖元数据服务的实现和挑战

数据湖元数据服务为大数据而生，为互通生态而生，期望后续继续完善其服务能力和支撑更多的大数据引擎，通过开放的服务能力、存储能力、统一的权限及元数据管理能力，为客户节省管理/人力/存储等各项成本，实现客户自己的业务价值。

11525 0 0

阿里云E-MapReduce团队

|

存储分布式计算搜索推荐

|

博文

JindoDistCp数据湖离线数据迁移最佳实践

JindoDistCp是阿里云E-MapReduce团队开发的大规模集群内部和集群之间分布式文件拷贝的工具

11773 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

JindoTable数据湖优化与查询加速

近几年，数据湖架构的概念逐渐兴起，很多企业都在尝试构建数据湖。相比较大数据平台，数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求，“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的，包括数据治理功能和查询加速功能。

10457 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习存储缓存

|

博文

JindoFS缓存加速数据湖上的机器学习训练

JindoFS提供了一个计算侧的分布式缓存系统，可以有效利用计算集群上的本地存储资源（磁盘或者内存）缓存OSS上的热数据，从而减少对OSS上数据的反复拉取，消耗网络带宽。

28774 0 0

阿里云E-MapReduce团队

|

存储缓存分布式计算

|

博文

基于JindoFS+OSS构建高效数据湖

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎

31353 0 0

阿里云E-MapReduce团队

|

存储分布式计算安全

|

博文

基于OSS的EB级数据湖

数据湖无缝对接多种计算分析平台，对Hadoop生态支持良好，存储在数据湖中的数据可以直接对其进行数据分析、处理、查询，通过对数据深入挖掘与分析，洞察数据中蕴含的价值。

10357 108 108

阿里云E-MapReduce团队

|

大数据视频直播

|

博文

阿里巴巴数据湖技术对外公布

数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案，助力企业无缝对接多种计算引擎，打破孤岛，洞察业务价值。本技术圈会持续发布最新产品动向和技术解读，更有不定期视频直播，与您一起完成企业大数据架构转型。敬请关注

5614 0 0

阿里云E-MapReduce团队

|

人工智能大数据 BI

|

博文

阿里云 EMR 产品内部培训课程首次免费对外公开！

EMR产品技术团队将在这四节课中，循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等，更多的是面对企业实际需求时，阿里云大数据团队的一些思考方式。

2581 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

|

博文

9月10日 Spark 社区直播【利用持久内存提速Spark】

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

3429 0 0

阿里云E-MapReduce团队

|

SQL 存储缓存

|

博文

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。

4373 0 0

阿里云E-MapReduce团队

|

SQL 存储缓存

|

博文

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

1977 0 0

阿里云E-MapReduce团队

|

存储机器学习/深度学习 SQL

|

博文

使用 E-MapReduce 构建云上数据湖

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关，分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

3766 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Apache

|

博文

文末有福利！Spark 实战训练营新增1000名额，8月24日正式开课

Spark 实战训练营新增1000名额，8月24日正式开课

2992 0 1

阿里云E-MapReduce团队

|

消息中间件 SQL 分布式计算

|

博文

Apache Spark™ 3.0中全新的Structured Streaming UI

Spark 3.0中新的Structured Streaming UI会提供一些有用的信息和统计数据，以此来监视所有流作业，便于在开发调试过程中排除故障。同时，开发者还能够获得实时的监测数据，这能使生产流程更直观。

3913 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算 DataWorks

|

博文

9大训练营免费开营！阿里云大数据团队的独门绝学全在这了

阿里云智能高级研究员贾扬清出品，实时计算 Flink、Hologres、EMR、机器学习 PAI、MaxCompute、DataWorks、ElasticSearch 等多个技术/产品一线专家齐上阵，核心开发阵容在线直播教学。

3302 0 1

开发者说

|

分布式计算 Spark Apache

|

博文

限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

15592 0 0

开发者说

|

SQL 分布式计算 Spark

|

博文

国内Spark开发者的免费入门宝典！首发作者阵容高手云集！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

43597 0 1

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

本文将会深入介绍DATE和TIMESTAMP

8621 0 0

阿里云E-MapReduce团队

|

SQL 数据采集分布式计算

|

博文

深入研究Apache Spark 3.0的新功能

分享嘉宾 Apache Spark PMC李潇，就职于 Databricks，Spark 研发部主管，领导 Spark，Koalas，Databricks runtime，OEM 的研发团队，在直播中为大家深入讲解了Apache Spark 3.0的新功能。

3552 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Apache

|

博文

稳赚不赔～Spark社区招募志愿者！

可能是21世纪唯一不看颜值只看人品的招募

1111 0 1

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

使用Ray将可扩展的自动化机器学习（AutoML）用于时序预测

机器学习和深度学习在时序预测上有更好的表现，前提是生成好的模型。但训练出好的模型并不是那么容易的，尤其是那些新手，这也就说明了为什么AutoML越来越火。在Analytics Zoo当中用户可以使用AutoML，在很短的时间内得到满足准确度要求的模型.在2020 Spark+AI峰会直播中，由Intel高级架构师黄晟盛为您介绍时序应用典型场景，基于AutoML的时序解决方案，同时结合实际案例与大家分享与客户的合作经验和反馈。

1551 0 0

阿里云E-MapReduce团队

|

分布式计算大数据 Spark

|

博文

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。

1572 0 0

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一

首届Spark“数字人体”AI挑战赛已开启，奖金高达46万，欢迎大家踊跃报名！本次直播将由英特尔高级软件工程师邱鑫为大家介绍如何使用Spark， Big DL及Analytics Zoo平台，分别从Analytics Zoo & BigDL简介、Analytics Zoo入门以及Analytics Zoo提供的End-to-End Pipelines和ML Workflow等方面详细展开讲解。

1611 0 1

开发者说

|

SQL 消息中间件分布式计算

|

博文

领英如何应对Apache Spark的Scalability挑战

在集群计算引擎使用率快速增长的过程当中，会面对多维度的计算基础架构规模扩展性的挑战。同时由于Spark团队直接与Spark用户打交道，如何提升Spark用户生产力，避免“用户支持陷阱”，一直是较为头疼的问题。本次直播将由领英Spark团队软件工程师沈旻和林致远为您介绍，领英Spark 生态系统，构建多元化Spark 生态系统过程中遇到的挑战，如何提升Spark用户生成力以及如何优化Spark基础计算架构。

1207 0 1

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

首届Spark“数字人体”AI挑战赛已开启，奖金高达46万，欢迎大家踊跃报名！本次直播将由阿里云人工智能产品专家李博为大家介绍，Data Science节点概述，Data Science节点深度学习框架，PAI-Alink流批一体化机器学习算法平台，AutoML，FaissServer以及PAI-EMS等Data Science原子化组件。

1036 0 0

开发者说

|

机器学习/深度学习人工智能分布式计算

|

博文

使用RayOnSpark在大数据平台上运行新兴的人工智能应用

RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中，省去集群间数据传输的overhead，支持用户使用Spark处理的数据做新兴人工智能应用的开发。本次直播将由Intel大数据团队软件工程师黄凯为您介绍Ray和Intel的开源项目Analytics Zoo，开发RayOnSpark的动机和初衷，同时结合实际案例分享RayOnSpark的落地实践。

1736 0 1

开发者说

|

SQL 机器学习/深度学习分布式计算

|

博文

Apache Spark 3.0：十年回顾，展望未来

今年是Spark发布的第十年，回顾Spark如何一步步发展到今天，其发展过程所积累的经验，以及这些经验对Spark未来发展的启发，对Spark大有脾益。在7月4日的Spark+AI SUMMIT 2020中文精华版线上峰会上，Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介：回顾过去的十年，并展望未来》的全面解析，为大家介绍了Spark的起源、发展过程及最新进展，同时展望了Spark的未来。

9079 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

Databricks数据洞察限时免费开启公测！

企业级批流一体的Spark大数据分析平台，无论是数据分析师、数据开发工程师还是数据科学家，均可以通过Databricks数据洞察（DDI)分析平台，实现协同合作和数据共享，满足在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。

806 0 0

开发者说

|

分布式计算 Java 大数据

|

博文

自适应查询执行AQE：在运行时加速SparkSQL

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行（AQE）的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

3826 1 2

开发者说

|

存储分布式计算资源调度

|

博文

在kubernetes上运行apache spark：最佳实践和陷阱

阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍，Spark on k8s，以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

4797 0 0

开发者说

|

SQL JSON 分布式计算

|

博文

数据工程师眼中的 Delta lake（Delta by example）

SPARK+AI SUMMIT 2020中文精华版线上峰会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文中Databricks开源组技术主管范文臣从数据工程师的角度出发向大家介绍Delta Lake。以下是视频内容精华整理。

2483 0 0

开发者说

|

存储 JSON 分布式计算

|

博文

使用Databricks作为分析平台

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享，介绍了YipitData公司基于Databricks平台搭建的分析平台。

2998 0 0

开发者说

|

Prometheus 分布式计算监控

|

博文

Apache Spark 3.0对Prometheus监控的原生支持

阿里云EMR技术专家周康为大家带来Apache Spark 3.0对Prometheus监控的原生支持的介绍。内容包括spark 3.0以前是怎么用Prometheus进行监控的，以及spark 3.0是如何实现对Prometheus更好的本地化的支持。

3809 0 1

开发者说

|

存储缓存分布式计算

|

博文

利用闪存优化在Cosco基础上的Spark Shuffle

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文中，来自Databricks开源项目组的软件工程师吴一介绍了利用Flash闪存优化在Cosco基础上的Spark Shuffle。原标题：Flash for Spark Shuffle with Cosco

1274 0 0

开发者说

|

弹性计算分布式计算流计算

|

博文

Structured Streaming生产化实践及调优

Databricks软件工程师李元健为大家带来structured streaming生产化实践及调优的介绍。内容包括输入参数，状态参数，输出参数的调优，以及部署。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

1840 0 0

开发者说

|

SQL 分布式计算 Java

|

博文

Apache Spark 3.0中的SQL性能改进概览

阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

4094 0 0

开源大数据EMR

|

SQL 分布式计算 Java

|

博文

Apache Spark 3.0 中的向量化 IO

在 Apache Spark 3.0 中，SparkR 中引入了一种新的向量化（vectorized）实现，它利用 Apache Arrow 直接在 JVM 和 R 之间交换数据，且(反)序列化成本非常小

2642 58 58

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

如何实现Spark on Kubernetes？

数据湖架构，为什么需要“湖加速”？

重磅下载！首次揭秘如何构建阿里云云原生数据湖体系

欢迎加入 databricks 数据洞察产品交流钉钉群

欢迎加入 E- MapReduce 钉钉产品交流群

JindoFS 存储策略和读写优化

官宣！阿里云重磅发布云原生数据湖体系

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

Serverless Spark的弹性利器 - EMR Shuffle Service

云原生计算引擎挑战与解决方案

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

多数据源一站式入湖

多引擎集成挖掘湖上数据价值

数据湖元数据服务的实现和挑战

JindoDistCp数据湖离线数据迁移最佳实践

JindoTable数据湖优化与查询加速

JindoFS缓存加速数据湖上的机器学习训练

基于JindoFS+OSS构建高效数据湖

基于OSS的EB级数据湖

阿里巴巴数据湖技术对外公布

阿里云 EMR 产品内部培训课程首次免费对外公开！

9月10日 Spark 社区直播【利用持久内存提速Spark】

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

使用 E-MapReduce 构建云上数据湖

文末有福利！Spark 实战训练营新增1000名额，8月24日正式开课

Apache Spark™ 3.0中全新的Structured Streaming UI

9大训练营免费开营！阿里云大数据团队的独门绝学全在这了

限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

国内Spark开发者的免费入门宝典！首发作者阵容高手云集！

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

深入研究Apache Spark 3.0的新功能

稳赚不赔～Spark社区招募志愿者！

使用Ray将可扩展的自动化机器学习（AutoML）用于时序预测

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

Analytics Zoo 入门 | Spark“数字人体”AI挑战赛赛题解析一

领英如何应对Apache Spark的Scalability挑战

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

使用RayOnSpark在大数据平台上运行新兴的人工智能应用

Apache Spark 3.0：十年回顾，展望未来

Databricks数据洞察 限时免费开启公测！

自适应查询执行AQE：在运行时加速SparkSQL

在kubernetes上运行apache spark：最佳实践和陷阱

数据工程师眼中的 Delta lake（Delta by example）

使用Databricks作为分析平台

Apache Spark 3.0对Prometheus监控的原生支持

利用闪存优化在Cosco基础上的Spark Shuffle

Structured Streaming生产化实践及调优

Apache Spark 3.0中的SQL性能改进概览

Apache Spark 3.0 中的向量化 IO

活跃用户

相关产品

Databricks数据洞察限时免费开启公测！