开发者社区> 开源大数据EMR> 正文

2019年Apache Spark技术交流社区原创文章回顾

简介: 整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。
+关注继续查看

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;同盾科技工程师梁世威;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后)

  1. 浅谈 Spark 的多语言支持
  2. Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
  3. 基于Spark SQL实现对HDFS操作的实时监控报警
  4. 通过Spark SQL实时归档SLS数据
  5. 使用Spark SQL进行流式机器学习计算(上)
  6. 通过WebUI查看Structured Streaming作业统计信息
  7. 现代流式计算的基石:Google DataFlow
  8. Spark Streaming 框架在 5G 中的应用
  9. [是时候放弃 Spark Streaming, 转向 Structured Streaming 了
    ](https://developer.aliyun.com/article/690913)
  10. 使用Spark Streaming SQL基于时间窗口进行数据统计
  11. Spark-StructuredStreaming checkpointLocation分析、优化耗时
  12. 使用Spark Streaming SQL进行PV/UV统计
  13. 通过Spark Streaming作业处理Kafka数据
  14. 通过Kafka Connect进行数据迁移
  15. Spark内置图像数据源初探
  16. 【译】Spark-Alchemy:HyperLogLog的使用介绍
  17. EMR Spark Runtime Filter性能优化
  18. EMR Spark Relational Cache如何支持雪花模型中的关联匹配
  19. EMR Spark Relational Cache的执行计划重写
    1. EMR Spark Relational Cache 利用数据预组织加速查询
  20. 使用Relational Cache加速EMR Spark数据分析
  21. 使用EMR Spark Relational Cache跨集群同步数据
  22. 2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
  23. [【译】数据湖正在成为新的数据仓库
    ](https://developer.aliyun.com/article/708051)
  24. [深入剖析 Delta Lake:详解事务日志
    ](https://developer.aliyun.com/article/718093)
  25. Delta元数据解析
  26. 开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake
  27. 【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表
  28. 漫谈分布式计算框架
  29. 分布式快照算法: Chandy-Lamport
  30. 海量小文件的的根源
  31. 是时候改变你数仓的增量同步方案了
  32. [【译】Spark NLP使用入门
    ](https://developer.aliyun.com/article/706952)
  33. 【译】使用Spark SQL 运行大规模基因组工作流
  34. 【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
  35. 使用Apache Arrow助力PySpark数据处理
  36. Spark on Kubernetes原生支持浅析
  37. 列式存储系列(一)C-Store
  38. 列式存储系列(二): Vertica
  39. Spark on Kubernetes 的现状与挑战
  40. Koalas:让 pandas 轻松切换 Apache Spark
  41. 使用spark-redis组件访问云数据库Redis
  42. 玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
  43. HIVE优化浅谈
  44. HIVE TopN shuffle 原理
  45. Kerberos使用OpenLDAP作为backend
  46. 在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
  47. [【译】Hadoop发生了什么?我们该如何做?
    ](https://yq.aliyun.com/articles/718414)
  48. 实时 OLAP 系统 Druid
  49. Spark Operator浅析
  50. Spark Codegen浅析
  51. 深入分析Spark UDF的性能
  52. Spark整合Ray思路漫谈
  53. Tablestore结合Spark的流批一体SQL实战
  54. 助力云上开源生态 - 阿里云开源大数据平台的发展
  55. JindoFS概述:云原生的大数据计算存储分离方案
  56. JindoFS解析 - 云上大数据高性能数据湖存储方案
  57. [EMR 打造高效云原生数据分析引擎
    ](https://developer.aliyun.com/article/725861)
  58. [ 5分钟迅速搭建云上Lambda大数据分析架构
    ](https://developer.aliyun.com/article/721502)
  59. [如何在Spark中实现Count Distinct重聚合
    ](https://developer.aliyun.com/article/723652)
  60. 基于 Spark 和 TensorFlow 的机器学习实践
  61. 如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
  62. 【译】Apache Spark 数据建模之时间维度(一)
  63. Spark 小文件合并优化实践
  64. Apache Spark中国技术交流社区历次直播回顾(持续更新)

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!二维码spark群.JPG

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大 我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo
443 0
8月28日社区直播【Spark Streaming SQL流式处理简介】
本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
740 0
12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】
本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。
752 0
中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应用
由中国 Cassandra 技术社区主办,阿里云、DataFun协办的中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应用将于2019-11-16日在北京举行,来自阿里云、ScyllaDB、360等4位嘉宾的核心技术分享。
983 0
10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】
本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。
633 0
8月28日社区直播【Spark Streaming SQL流式处理简介】
本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
852 0
7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】
TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。
413 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
20520 0
8月28日社区直播【Spark Streaming SQL流式处理简介】
本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
683 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
18795 0
282
文章
74
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载