Spark

首页 标签 Spark
# Spark #
关注
9105内容
【Spark Summit East 2017】2017年大数据与Spark的发展趋势
本讲义出自Matei Zaharia在Spark Summit East 2017上的演讲,主要介绍了2016年以及2017年大数据与Spark技术的未来的汇合的发展趋势以及Databricks对于使Spark与像深度学习库这样的原生代码能够更好地进行交互所做的工作。
Spark Streaming和Flink的Word Count对比
准备: nccat for windows/linux 都可以 通过 TCP 套接字连接,从流数据中创建了一个 Spark DStream/ Flink DataSream, 然后进行处理, 时间窗口大小为10s 因为 示例需要, 所以 需要下载一个netcat, 来构造流的输入。
【大数据】SparkSql连接查询中的谓词下推处理(一)
SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用  thriftserver 提供服务化的 Sql 查询功能。
Spark Streaming 1.6 流式状态管理分析
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。
【Spark Summit East 2017】将HPC算法引入大数据平台
本讲义出自Nikolay Malitsky在Spark Summit East 2017上的演讲,主要介绍了使用轻量级源工具集开发的,基于MPI的Spark平台的扩展,扩展的背景和原理正如题目所示:将HPC算法引入大数据平台。
【Spark Summit East 2017】基于SparkR的可伸缩数据科学
本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。
Neo4j导入数据的几种方法
create语句 CREATE (a:Person {name: '张三', sex: '男'}) 如利用create批量写入,这里我使用的是scala+spark,代码如下: object Neo4jConnect { def main(args: Array[String]).
免费试用