整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。
福利:转发本文到朋友圈,集赞30个截图发送至小编(小编微信见文末),送Spark社区定制毛线帽一顶,限量10顶先到先得。
感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;同盾科技工程师梁世威;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后)
- 浅谈 Spark 的多语言支持
- Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
- 基于Spark SQL实现对HDFS操作的实时监控报警
- 通过Spark SQL实时归档SLS数据
- 使用Spark SQL进行流式机器学习计算(上)
- 通过WebUI查看Structured Streaming作业统计信息
- 现代流式计算的基石:Google DataFlow
- Spark Streaming 框架在 5G 中的应用
- [是时候放弃 Spark Streaming, 转向 Structured Streaming 了
](https://developer.aliyun.com/article/690913) - 使用Spark Streaming SQL基于时间窗口进行数据统计
- Spark-StructuredStreaming checkpointLocation分析、优化耗时
- 使用Spark Streaming SQL进行PV/UV统计
- 通过Spark Streaming作业处理Kafka数据
- 通过Kafka Connect进行数据迁移
- Spark内置图像数据源初探
- 【译】Spark-Alchemy:HyperLogLog的使用介绍
- EMR Spark Runtime Filter性能优化
- EMR Spark Relational Cache如何支持雪花模型中的关联匹配
- EMR Spark Relational Cache的执行计划重写
1. EMR Spark Relational Cache 利用数据预组织加速查询 - 使用Relational Cache加速EMR Spark数据分析
- 使用EMR Spark Relational Cache跨集群同步数据
- 2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
- [【译】数据湖正在成为新的数据仓库
](https://developer.aliyun.com/article/708051) - [深入剖析 Delta Lake:详解事务日志
](https://developer.aliyun.com/article/718093) - Delta元数据解析
- 开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
- 【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表
- 漫谈分布式计算框架
- 分布式快照算法: Chandy-Lamport
- 海量小文件的的根源
- 是时候改变你数仓的增量同步方案了
- [【译】Spark NLP使用入门
](https://developer.aliyun.com/article/706952) - 【译】使用Spark SQL 运行大规模基因组工作流
- 【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
- 使用Apache Arrow助力PySpark数据处理
- Spark on Kubernetes原生支持浅析
- 列式存储系列(一)C-Store
- 列式存储系列(二): Vertica
- Spark on Kubernetes 的现状与挑战
- Koalas:让 pandas 轻松切换 Apache Spark
- 使用spark-redis组件访问云数据库Redis
- 玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
- HIVE优化浅谈
- HIVE TopN shuffle 原理
- Kerberos使用OpenLDAP作为backend
- 在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
- [【译】Hadoop发生了什么?我们该如何做?
](https://yq.aliyun.com/articles/718414) - 实时 OLAP 系统 Druid
- Spark Operator浅析
- Spark Codegen浅析
- 深入分析Spark UDF的性能
- Spark整合Ray思路漫谈
- Tablestore结合Spark的流批一体SQL实战
- 助力云上开源生态 - 阿里云开源大数据平台的发展
- JindoFS概述:云原生的大数据计算存储分离方案
- JindoFS解析 - 云上大数据高性能数据湖存储方案
- [EMR 打造高效云原生数据分析引擎
](https://developer.aliyun.com/article/725861) - [ 5分钟迅速搭建云上Lambda大数据分析架构
](https://developer.aliyun.com/article/721502) - [如何在Spark中实现Count Distinct重聚合
](https://developer.aliyun.com/article/723652) - 基于 Spark 和 TensorFlow 的机器学习实践
- 如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
- 【译】Apache Spark 数据建模之时间维度(一)
- Spark 小文件合并优化实践
- Apache Spark中国技术交流社区历次直播回顾(持续更新)
阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。