开源大数据平台 E-MapReduce-博文-第8页-阿里云开发者社区-阿里云

阿里云E-MapReduce团队

|

SQL 人工智能分布式计算

|

博文

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

23017 0 0

阿里云E-MapReduce团队

|

人工智能分布式计算 Spark

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

1046 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件存储

|

博文

Delta Lake 如何帮助云用户解决数据实时入库问题

Delta Lake 自发布以来得到了业界广泛的关注，其提供的 ACID 支持、历史版本回溯、UPDATE/DELETE/MERGE INTO 语法支持等功能完美契合了用户对数据湖内容管理的需求；其 Multi-Hop 架构的流批一体设计极大简化了用户运维数据管道的成本，使得传统的 ETL 流程进化为更灵活的 ELT+ 流程。在本次演讲中，我们将分享 EMR 是如何利用 Delta Lake 帮助用户解决数据实时入库的问题，以及在这个过程中我们对 Delta Lake 做了哪些有益的提升和探索。

3774 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Cloud Native

|

博文

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本，提高热数据的访问性能。

4129 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

1849 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL Web App开发

|

博文

SPARK中文峰会上海会场预告篇｜Ray On Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会，上海会场的讲师议题介绍来咯～

1610 0 0

阿里云E-MapReduce团队

|

分布式计算 Hadoop 大数据

|

博文

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响，严重时甚至影响业务稳定性，这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法，并基于分析结果可以采取哪些处理措施。

971 0 0

阿里云E-MapReduce团队

|

分布式计算 Prometheus Kubernetes

|

博文

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

2563 0 0

阿里云E-MapReduce团队

|

SQL 人工智能缓存

|

博文

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

2910 0 0

阿里云E-MapReduce团队

|

人工智能分布式计算达摩院

|

博文

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月spark社区活动ing～

1115 0 1

阿里云E-MapReduce团队

|

机器学习/深度学习 SQL 分布式计算

|

博文

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

864 0 0

开源大数据EMR

|

SQL 分布式计算 Java

|

博文

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。

8190 0 1

开源大数据EMR

|

人工智能分布式计算 Kubernetes

|

博文

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

7月4日-5日，Apache Spark中国技术交流社区举办首次SPARK + AI SUMMIT 2020 中文精华版线上峰会，在北美summit结束第一时间为国内开发者奉上一场技术盛筵。本次活动由阿里云开发者社区牵头，联合阿里云计算平台、Databricks、达摩院、英特尔、领英，在超过覆盖五万开发者的渠道进行投票，票选出了12个最受关注的大会topic进行中文讲解，邀请十几位来自北京、上海、杭州、硅谷的PMC和意见领袖，一一还原英文现场的经典分享。直播间链接 https://developer.aliyun.com/live/43188

3299 0 1

开源大数据EMR

|

SQL 分布式计算安全

|

博文

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

本文主要介绍了Optimus项目，作为一个Spark的第三方库，Optimus基于PySpark，为用户提供了一套完整的数据质量探查和数据清理工具集，接口参考Pandas设计，易用且强大，非常适合大规模数据的清理准备工作。限于篇幅，还有很多Optimus的清理接口和Profile功能没有介绍，感兴趣的同学可以访问[Optimus官网](https://hi-optimus.com/)探索更多功能和用法。

1253 0 0

开源大数据EMR

|

SQL 消息中间件人工智能

|

博文

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月14日，大数据+AI Meetup 在线直播！Apache Flink Committer，阿里巴巴技术专家辛庸将现场分享《Delta Lake 如何帮助云用户解决数据实时入库问题》，还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。

2101 0 11

开源大数据EMR

|

存储缓存大数据

|

博文

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段，并结合应用场景介绍对数据缓存加速的相关技术和策略。

1014 0 0

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

Spark-TFRecord: Spark将全面支持TFRecord

本文中，我们将介绍 Spark 的一个新的数据源，Spark-TFRecord。Spark-TFRecord 的目的是提供在Spark中对原生的 TensorFlow 格式进行完全支持。本项目的目的是将 TFRecord 作为Spark数据源社区中的第一等公民，类似于 Avro，JSON,Parquet等。Spark-TFRecord 不仅仅提供简单的功能支持，比如 Data Frame的读取、写入，还支持一些高阶功能，比如ParititonBy。使用 Spark-TFRecord 将会使数据处理流程与训练工程完美结合。

3820 0 0

开源大数据EMR

|

SQL JSON 分布式计算

|

博文

不通过 Spark 获取 Delta Lake Snapshot

Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记，在进行 vacuum 前并不会进行物理删除，因此一些例如在 web 上获取元数据或进行部分数据展示的操作如果直接从表路径下获取 parquet 文件信息，读到的可能是历史已经被标记删除的数据。

1092 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习人工智能分布式计算

|

博文

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

2020年6月4日，首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI 挑战赛——脊柱疾病智能诊断大赛，聚焦医疗领域应用，召集全球开发者利用人工智能技术探索高效准确的脊柱退化性疾病自动诊断。现已面向全社会开放，为所有大数据技术爱好者以及相关的科研企业提供挑战平台，个人参赛或高等院校、科研单位、互联网企业等人员均可报名参赛。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变，形成一批创新性强、复用率高的算法案例，并积极推动相关技术的临床应用，用科技造福医疗事业，鼓励人工智能与疾病预防深度融合的应用落地，由点到面驱动国内人工智能医疗产业发展。

1254 0 1

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？

6月14日，阿里巴巴计算平台事业部与阿里云开发者社区共同举办的大数据+AI Meetup 系列第一季即将重磅开启，此次 Meetup 邀请了来自阿里巴巴、Databricks、快手、网易云音乐的7位技术专家，集中解读大数据当前热门话题！

849 0 0

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

2020年6月4日，首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI 挑战赛——脊柱疾病智能诊断大赛，聚焦医疗领域应用，召集全球开发者利用人工智能技术探索高效准确的脊柱退化性疾病自动诊断。现已面向全社会开放，为所有大数据技术爱好者以及相关的科研企业提供挑战平台，个人参赛或高等院校、科研单位、互联网企业等人员均可报名参赛。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变，形成一批创新性强、复用率高的算法案例，并积极推动相关技术的临床应用，用科技造福医疗事业，鼓励人工智能与疾病预防深度融合的应用落地，由点到面驱动国内人工智能医疗产业发展。

1988 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Hadoop

|

博文

对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

IT软硬件架构、企业部署已经发生了翻天覆地的变化，在这些新的变革下，HDFS露出了一定的颓势。但是云上对象存储是唯一的选择吗？面向on-premise，云环境以及混合云环境，在这新旧存储架构交替之际，数据存储会如何发展呢，如何填补Hadoop存储留下的空白？

1762 0 0

开源大数据EMR

|

人工智能分布式计算算法

|

博文

首届 Apache Spark AI智能诊断大赛重磅来袭！

本次大赛将由阿里云计算有限公司、英特尔（中国）有限公司联合主办，湘雅医院、浙江大学附属第二附属医院、解放军301医院作为指导单位，唯医骨科共同合作，全程有资深技术专家提供技术指导。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变，形成一批创新性强、复用率高的算法案例，并积极推动相关技术的临床应用，用科技造福医疗事业，鼓励人工智能与疾病预防深度融合的应用落地，由点到面驱动国内人工智能医疗产业发展，向公众真正意义上展示大数据AI在整个社会不可替代的价值。

1991 0 0

开源大数据EMR

|

SQL 缓存分布式计算

|

博文

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化

5667 0 0

开源大数据EMR

|

分布式计算数据可视化 IDE

|

博文

5月21日 Spark 社区直播【Spark on Zeppelin】

Apache Zeppelin 是一个交互式的大数据开发Notebook，从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势：不需要编译Jar，环境配置简单，交互式开发，数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。

948 0 1

开源大数据EMR

|

SQL 存储分布式计算

|

博文

物化视图在 SparkSQL 中的实践

物化视图作为一种预计算的优化方式，广泛应用于传统数据库中，如Oracle，MSSQL Server等。随着大数据技术的普及，各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色，而物化视图作为数据查询的加速器，将极大增强用户在数据分析工作中的使用体验。本文将基于 SparkSQL（2.4.4） + Hive （2.3.6），介绍物化视图在SparkSQL中的实现及应用。

3458 0 0

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

招聘！招聘！招聘！计算平台解决方案架构师专场

为了帮助客户更加高效地使用大数据产品，发挥数据价值，现计算平台招募大数据及AI产品解决方案架构师，欢迎在北京、杭州的同学加入我们！

1650 0 0

开源大数据EMR

|

人工智能分布式计算大数据

|

博文

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

1293 0 1

黯灭_邓彬

|

弹性计算分布式计算 druid

|

博文

E-MapReduce 4月产品新功能

1135 0 0

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】

近年来，由于对通用人工智能研究的潜在价值，训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂，需要结合图像，强化学习等多种不同的AI技术，同时也要求agents响应有实时性，因此是一个非常好的试验场，可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。

940 0 0

开源大数据EMR

|

存储分布式计算算法

|

博文

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

在 2019 年的打榜测试中，我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。

6217 0 0

开源大数据EMR

|

存储人工智能大数据

|

博文

5月8日 JindoFS 系列直播第五讲【JindoFS Fuse 支持】

本次直播主要介绍如何利用FUSE的POSIX文件系统接口，像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。

923 0 0

开源大数据EMR

|

SQL 缓存分布式计算

|

博文

EMR Spark-SQL性能极致优化揭秘概览篇

这次的优化里面，还有一个很好玩的优化，就是我们引入的 Native Runtime，如果说上述的优化器优化都是一些特殊 Case 的杀手锏，Native Runtime 就是一个广谱大杀器，根据我们后期统计，引入 Native Runtime，可以普适性的提高 SQL Query 15～20%的 E2E 耗时，这个在TPCDS Perf 里面也是一个很大的性能提升点。

3780 0 0

开源大数据EMR

|

存储分布式计算资源调度

|

博文

Hadoop社区比 Ozone 更重要的事情

本文回顾了最近几年Hadoop项目的发展，着重探讨个人对Ozone的看法和理解，不求正确，引玉而已，欢迎业内专家拍砖讨论。

2739 0 0

开源大数据EMR

|

机器学习/深度学习人工智能分布式计算

|

博文

4月29日Spark社区直播【用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助】

本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集，在Apache Spark集群上实现基于深度学习的胸腔疾病分类，为医生提供端到端的胸腔疾病AI诊疗辅助。

798 0 0

开源大数据EMR

|

SQL 存储分布式计算

|

博文

阿里云EMR计算速度提升2.2倍连续两年打破大数据领域最难竞赛世界纪录！

4月26日，大数据领域权威竞赛TPC-DS公布了最新结果，阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是，去年阿里云EMR首次打破该竞赛纪录，成为全球首个通过TPC认证的公共云产品。今年在这一基础上，EMR的计算速度提升了2.2倍，连续两年打破了这项大数据领域最难竞赛的世界纪录。

3741 0 0

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

Delta Lake Presto Integration & Manifests 机制

Delta 0.5 已于上周发布，增加了不少新特性，这篇文章主要讲解其 Presto Integration 和 Manifests 机制。

1364 0 0

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

Delta Lake 分区表覆盖写入操作

Delta Lake当前版本（0.5）只支持API操作的，但是实现 Insert SQL 语法也不难，需要注意的是 Delta Lake 中的分区表覆盖写入操作。

1681 0 0

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性，在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度，介绍新的数据源如何和Spark DatasourceV2进行集成。

6073 0 0

开源大数据EMR

|

存储大数据 Apache

|

博文

4月23日JindoFS系列直播【大规模文件元数据下的耗时操作优化】

本次直播主要介绍大数据生态中常见的元数据服务部署形态，并分析大规模文件元数据下在生产环境中可能遇到的问题，以及针对这些问题如何进行优化和调整。

973 0 0

开源大数据EMR

|

存储分布式计算 Kubernetes

|

博文

Spark在云原生时代的发展

在ABC (AI, BigData, Cloud)时代，传统的大数据解决方案和厂商 (Cloudera, Hortonworks) 略显颓势，而云厂商 (AWS, Azure, GCP) 和云原生解决方案 (Databricks Cloud, Snowflake, ElasticSearch等) 则愈加迸发出活力。在这个云原生的时代拥抱云变成了不二之选，那么对于Spark[1]来说它是如何在云原生时代积极拥抱云的呢？

1641 0 0

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

本文介绍eBay Carmel团队利用Delta Lake，使Spark SQL支持Teradata的Update/Delete语法。主要从源码角度介绍了CRUD操作的具体实现和优化，以及delta表的管理工作。希望对同业人员有所启发和帮助。

2207 0 0

阿里云E-MapReduce团队

|

SQL 消息中间件存储

|

博文

spark面试该准备点啥

大部分面试者被面试的spark问题估计都会集中于spark core，spark streaming和spark sql，至于mllib和graphx这些估计都是了解项，当然也要逐步去学习structured streaming。

2227 0 0

阿里云E-MapReduce团队

|

机器学习/深度学习分布式计算算法

|

博文

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。

1489 0 0

阿里云E-MapReduce团队

|

存储分布式计算 Cloud Native

|

博文

关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

本文集合了JindoFS相关的文章介绍和视频链接。

5113 0 0

阿里云E-MapReduce团队

|

存储分布式计算大数据

|

博文

4月9日JindoFS系列直播【存储计算分离场景的计算适应优化】

本次分享会介绍云上大数据处理的存储计算分离特征，分析传统大数据处理中数据本地化与存储计算分离场景的区别，以及在存储计算分离场景中阿里云EMR的相关优化。

1329 0 0

阿里云E-MapReduce团队

|

存储 SQL 数据采集

|

博文

深入剖析 Delta Lake：Schema Enforcement & Evolution

Schema 约束和 Schema 演变相互补益，合理地结合起来使用将能方便地管理好数据，避免脏数据侵染，保证数据的完整可靠。

1738 0 0

阿里云E-MapReduce团队

|

分布式计算运维监控

|

博文

E-MapReduce弹性低成本离线大数据分析

基于阿里云的E-MapReduce(EMR) 、对象存储OSS、日志服务SLS、抢占式ECS实例构建弹性、低成本的计算与存储分离架构的海量离线大数据分析日志分析系统。

1229 0 0

阿里云E-MapReduce团队

|

SQL 缓存分布式计算

|

博文

MySQL：互联网公司常用分库分表方案汇总

不管是IO瓶颈，还是CPU瓶颈，最终都会导致数据库的活跃连接数增加，进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是，可用数据库连接少甚至无连接可用。接下来就可以想象了吧（并发量、吞吐量、崩溃）。

3111 0 0

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

阿里云智能事业群 EMR团队招人啦！

加入我们，成为分布式存储，计算和调度等领域的专家，与众多业界和社区技术专家一起工作，加速大数据上云，投身数字时代新基建。

4910 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

Delta Lake 如何帮助云用户解决数据实时入库问题

JindoFS - 分层存储

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK中文峰会上海会场预告篇｜Ray On Spark

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

Spark-TFRecord: Spark将全面支持TFRecord

不通过 Spark 获取 Delta Lake Snapshot

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

首届 Apache Spark AI智能诊断大赛重磅来袭！

SparkSQL与Hive metastore Parquet转换

5月21日 Spark 社区直播【Spark on Zeppelin】

物化视图在 SparkSQL 中的实践

招聘！招聘！招聘！计算平台解决方案架构师专场

Spark + AI Summit 2020 中文议题有奖征集

E-MapReduce 4月产品新功能

5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

5月8日 JindoFS 系列直播 第五讲【JindoFS Fuse 支持】

EMR Spark-SQL性能极致优化揭秘 概览篇

Hadoop社区比 Ozone 更重要的事情

4月29日Spark社区直播【用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助】

阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录！

Delta Lake Presto Integration & Manifests 机制

Delta Lake 分区表覆盖写入操作

SparkSQL DatasourceV2 之 Multiple Catalog

4月23日JindoFS系列直播【大规模文件元数据下的耗时操作优化】

Spark在云原生时代的发展

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

spark面试该准备点啥

Spark MLlib中KMeans聚类算法的解析和应用

关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

4月9日JindoFS系列直播【存储计算分离场景的计算适应优化】

深入剖析 Delta Lake：Schema Enforcement & Evolution

E-MapReduce弹性低成本离线大数据分析

MySQL：互联网公司常用分库分表方案汇总

阿里云智能事业群 EMR团队招人啦！

活跃用户

相关产品

5月8日 JindoFS 系列直播第五讲【JindoFS Fuse 支持】

EMR Spark-SQL性能极致优化揭秘概览篇

阿里云EMR计算速度提升2.2倍连续两年打破大数据领域最难竞赛世界纪录！