备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

2019年Apache Spark技术交流社区原创文章回顾

2020-01-09 1387

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

福利：转发本文到朋友圈，集赞30个截图发送至小编（小编微信见文末），送Spark社区定制毛线帽一顶，限量10顶先到先得。

感谢持续分享输出优质内容的阿里云EMR团队的王道远，余根茂，彭搏，郑锴，夏立，林武康，李呈祥，吴威，殳鑫鑫，宋军，关文选，孙大鹏，辛现银，江宇，陈强，陈龙，陶克路，姚舜扬，周克勇，苏昆辉；阿里云Tablestore存储服务技术专家朱晓然，王卓然；Databricks研发总监李潇；资深数据架构师祝威廉；entobit技术总监邓力；某游戏公司数据平台负责人李伟；eBay软件开发工程师李万雪；同盾科技工程师梁世威；感谢圈内的技术大佬浪尖，过往记忆，AI前线，vivo技术，滴滴技术提供的帮助。（排名不分先后）

浅谈 Spark 的多语言支持
Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望
基于Spark SQL实现对HDFS操作的实时监控报警
通过Spark SQL实时归档SLS数据
使用Spark SQL进行流式机器学习计算（上）
通过WebUI查看Structured Streaming作业统计信息
现代流式计算的基石：Google DataFlow
Spark Streaming 框架在 5G 中的应用
[是时候放弃 Spark Streaming, 转向 Structured Streaming 了
](https://developer.aliyun.com/article/690913)
使用Spark Streaming SQL基于时间窗口进行数据统计
Spark-StructuredStreaming checkpointLocation分析、优化耗时
使用Spark Streaming SQL进行PV/UV统计
通过Spark Streaming作业处理Kafka数据
通过Kafka Connect进行数据迁移
Spark内置图像数据源初探
【译】Spark-Alchemy：HyperLogLog的使用介绍
EMR Spark Runtime Filter性能优化
EMR Spark Relational Cache如何支持雪花模型中的关联匹配
EMR Spark Relational Cache的执行计划重写
1. EMR Spark Relational Cache 利用数据预组织加速查询
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
[【译】数据湖正在成为新的数据仓库
](https://developer.aliyun.com/article/708051)
[深入剖析 Delta Lake：详解事务日志
](https://developer.aliyun.com/article/718093)
Delta元数据解析
开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake
【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表
漫谈分布式计算框架
分布式快照算法: Chandy-Lamport
海量小文件的的根源
是时候改变你数仓的增量同步方案了
[【译】Spark NLP使用入门
](https://developer.aliyun.com/article/706952)
【译】使用Spark SQL 运行大规模基因组工作流
【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法
使用Apache Arrow助力PySpark数据处理
Spark on Kubernetes原生支持浅析
列式存储系列（一）C-Store
列式存储系列（二）: Vertica
Spark on Kubernetes 的现状与挑战
Koalas：让 pandas 轻松切换 Apache Spark
使用spark-redis组件访问云数据库Redis
玩转阿里云EMR三部曲-高级篇交互式查询及统一数据源
HIVE优化浅谈
HIVE TopN shuffle 原理
Kerberos使用OpenLDAP作为backend
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
[【译】Hadoop发生了什么？我们该如何做？
](https://yq.aliyun.com/articles/718414)
实时 OLAP 系统 Druid
Spark Operator浅析
Spark Codegen浅析
深入分析Spark UDF的性能
Spark整合Ray思路漫谈
Tablestore结合Spark的流批一体SQL实战
助力云上开源生态 - 阿里云开源大数据平台的发展
JindoFS概述：云原生的大数据计算存储分离方案
JindoFS解析 - 云上大数据高性能数据湖存储方案
[EMR 打造高效云原生数据分析引擎
](https://developer.aliyun.com/article/725861)
[ 5分钟迅速搭建云上Lambda大数据分析架构
](https://developer.aliyun.com/article/721502)
[如何在Spark中实现Count Distinct重聚合
](https://developer.aliyun.com/article/723652)
基于 Spark 和 TensorFlow 的机器学习实践
如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
【译】Apache Spark 数据建模之时间维度（一）
Spark 小文件合并优化实践
Apache Spark中国技术交流社区历次直播回顾（持续更新）

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区数个Spark技术同学每日在线答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！
对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

文章标签：

开源大数据平台 E-MapReduce

云原生大数据计算服务 MaxCompute

机器学习/深度学习

流计算

分布式计算

SQL

NoSQL

Spark

Apache

HIVE

存储

大数据

关键词：

apache spark Apache

Apache spark

Apache社区

apache spark社区

Apache技术交流

相关实践学习

基于EMR Serverless StarRocks一键玩转世界杯

基于StarRocks构建极速统一OLAP平台

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

阿里云云原生

|

4月前

|

消息中间件人工智能 Apache

Apache RocketMQ 中文社区全新升级！

RocketMQ 中文社区升级发布只是起点，我们将持续优化体验细节，推出更多功能和服务，更重要的是提供更多全面、深度、高质量的内容。

阿里云云原生

542 14 34

龙大吉

|

11天前

|

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

25 1 1

阿里云云原生

|

3月前

|

消息中间件人工智能监控

Apache RocketMQ 中文社区全新升级丨阿里云云原生 7 月产品月报

阿里云云原生 7 月产品月报

阿里云云原生

95 7 7

张飞的猪

|

4月前

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

139 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

jianz123

|

3月前

|

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

59 0 0

扬流

|

3月前

|

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

188 0 0

叫做饺子

|

4月前

|

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

129 0 0

郑小健

|

5月前

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

124 6 6

1941623231718325

|

5月前

|

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

340 3 3

孜倦与shine

|

5月前

|

消息中间件分布式计算关系型数据库

使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

孜倦与shine

84 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

JindoFS: 云上大数据的高性能数据湖存储方案

阿里封神-大数据处理技术漫谈

JindoFS概述：云原生的大数据计算存储分离方案

钉钉群直播【Spark Relational Cache 原理和实践】

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Presto实现原理（转）

使用Spark Streaming SQL基于时间窗口进行数据统计

通过可视化更好的了解你的Spark应用

YARN ResourceManager重启作业保留机制

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

EMR Serverless Spark：一站式全托管湖仓分析利器

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

从数据积累到大模型的智能飞跃，你准备好了吗？

DB-GPT v0.6.0 版本更新，发布六大核心新特性！

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 EMR Serverless Spark 版正式开启商业化

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

阿里云 EMR StarRocks 在七猫的应用和实践

EMR Serverless StarRocks体验测评

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

apache

packman

CPAN

下一篇

阿里云无影云电脑免费试用，最长可试用3个月