2019年Apache Spark技术交流社区原创文章回顾

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

福利:转发本文到朋友圈,集赞30个截图发送至小编(小编微信见文末),送Spark社区定制毛线帽一顶,限量10顶先到先得。

感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;同盾科技工程师梁世威;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后)

  1. 浅谈 Spark 的多语言支持
  2. Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
  3. 基于Spark SQL实现对HDFS操作的实时监控报警
  4. 通过Spark SQL实时归档SLS数据
  5. 使用Spark SQL进行流式机器学习计算(上)
  6. 通过WebUI查看Structured Streaming作业统计信息
  7. 现代流式计算的基石:Google DataFlow
  8. Spark Streaming 框架在 5G 中的应用
  9. [是时候放弃 Spark Streaming, 转向 Structured Streaming 了
    ](https://developer.aliyun.com/article/690913)
  10. 使用Spark Streaming SQL基于时间窗口进行数据统计
  11. Spark-StructuredStreaming checkpointLocation分析、优化耗时
  12. 使用Spark Streaming SQL进行PV/UV统计
  13. 通过Spark Streaming作业处理Kafka数据
  14. 通过Kafka Connect进行数据迁移
  15. Spark内置图像数据源初探
  16. 【译】Spark-Alchemy:HyperLogLog的使用介绍
  17. EMR Spark Runtime Filter性能优化
  18. EMR Spark Relational Cache如何支持雪花模型中的关联匹配
  19. EMR Spark Relational Cache的执行计划重写
    1. EMR Spark Relational Cache 利用数据预组织加速查询
  20. 使用Relational Cache加速EMR Spark数据分析
  21. 使用EMR Spark Relational Cache跨集群同步数据
  22. 2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
  23. [【译】数据湖正在成为新的数据仓库
    ](https://developer.aliyun.com/article/708051)
  24. [深入剖析 Delta Lake:详解事务日志
    ](https://developer.aliyun.com/article/718093)
  25. Delta元数据解析
  26. 开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
  27. 【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表
  28. 漫谈分布式计算框架
  29. 分布式快照算法: Chandy-Lamport
  30. 海量小文件的的根源
  31. 是时候改变你数仓的增量同步方案了
  32. [【译】Spark NLP使用入门
    ](https://developer.aliyun.com/article/706952)
  33. 【译】使用Spark SQL 运行大规模基因组工作流
  34. 【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
  35. 使用Apache Arrow助力PySpark数据处理
  36. Spark on Kubernetes原生支持浅析
  37. 列式存储系列(一)C-Store
  38. 列式存储系列(二): Vertica
  39. Spark on Kubernetes 的现状与挑战
  40. Koalas:让 pandas 轻松切换 Apache Spark
  41. 使用spark-redis组件访问云数据库Redis
  42. 玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
  43. HIVE优化浅谈
  44. HIVE TopN shuffle 原理
  45. Kerberos使用OpenLDAP作为backend
  46. 在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
  47. [【译】Hadoop发生了什么?我们该如何做?
    ](https://yq.aliyun.com/articles/718414)
  48. 实时 OLAP 系统 Druid
  49. Spark Operator浅析
  50. Spark Codegen浅析
  51. 深入分析Spark UDF的性能
  52. Spark整合Ray思路漫谈
  53. Tablestore结合Spark的流批一体SQL实战
  54. 助力云上开源生态 - 阿里云开源大数据平台的发展
  55. JindoFS概述:云原生的大数据计算存储分离方案
  56. JindoFS解析 - 云上大数据高性能数据湖存储方案
  57. [EMR 打造高效云原生数据分析引擎
    ](https://developer.aliyun.com/article/725861)
  58. [ 5分钟迅速搭建云上Lambda大数据分析架构
    ](https://developer.aliyun.com/article/721502)
  59. [如何在Spark中实现Count Distinct重聚合
    ](https://developer.aliyun.com/article/723652)
  60. 基于 Spark 和 TensorFlow 的机器学习实践
  61. 如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
  62. 【译】Apache Spark 数据建模之时间维度(一)
  63. Spark 小文件合并优化实践
  64. Apache Spark中国技术交流社区历次直播回顾(持续更新)

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!image.png
对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
4月前
|
消息中间件 人工智能 Apache
Apache RocketMQ 中文社区全新升级!
RocketMQ 中文社区升级发布只是起点,我们将持续优化体验细节,推出更多功能和服务,更重要的是提供更多全面、深度、高质量的内容。
573 17
|
28天前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
34 1
|
3月前
|
消息中间件 人工智能 监控
|
4月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
149 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
3月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
63 0
|
3月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
203 0
|
4月前
|
分布式计算 Apache Spark
|
5月前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
137 6
|
5月前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
5月前
|
消息中间件 分布式计算 关系型数据库
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

推荐镜像

更多