Spark-SparkSQL深入学习系列一(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/
自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark
SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点:
1、整合:将SQL类型的查询语言整合到 Spark 的核心RDD概念里。
数据科学与DevOps之间的差距还有救吗?
文章讲的是数据科学与DevOps之间的差距还有救吗,Packt的Skill Up 2016年调查报告显示,数据科学和DevOps是广大程序员的新宠。JavaScript和Python是数据科学家最常用的基本编程语言也是最受欢迎的,而DevOps则成为未来最大的趋势。
【南京Meetup】在CloudEdge中,通过ES实践解决ElasticLog产品问题
摘要: 2018 Elastic Meetup南京交流会,由赵伟带来以“ElasticLog with ES in CloudEdge”为题的演讲。本文首先介绍了CloudEdge与ElasticLog是什么,其次介绍了产品的构架图以及ES的作用,最后介绍了ES在实践过程中需要设计Index、分配Shard、快速将Spark里数据写入ES中和数据去重。
Spark 2.4.0 编程指南--快速入门
## 技能标签
- Spark 2.4.0 Spark session available as 'spark'
- 在Spark 2.0之后,RDD被数据集(Dataset)取代
- Spark session 读取HDFS文件做为数据集
- 数据集函数,count(),first(),...
【Spark Summit East 2017】为了乐趣和利润的全球扩张
本讲义出自Michelle Casbon在Spark Summit East 2017上的演讲,为了建立一个全球的用户群,一个产品需要支持多种语言环境,这带来挑战是在不同语言环境下对于字符进行本地化,Qordoba为了应对这些挑战,使用了高度可扩展的机器学习和自动化计数,使用Scala和Akka作为编排层,Apache Cassandra和MariaDB作为存储层,Spark进行自然语言处理,Kafka作为消息总线。
Spark DataFrame 不是真正的 DataFrame
最早的 "DataFrame" ,来源于贝尔实验室开发的 S 语言。R 语言,作为 S 语言的开源版本,于 2000 年发布了第一个稳定版本,并且实现了 dataframe。pandas 于 2009 年被开发,Python 中于是也有了 DataFrame 的概念。