【Spark Summit East 2017】使用Spark进行时间序列分析
本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库——spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例。
从数砖开源 Delta Lake 说起
Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。
如何在运行pyspark时加载本地jar包?
某内网项目需要测试spark和mongodb联调,因为不能连接外网,所以下载好了相应的jar包扔进去了。
官网给出的事例代码如下:
./bin/pyspark --conf "spark.mongodb.
长脸了!阿里云这位英雄拿下了世界第一 | 7月16号云栖夜读
今天的首篇文章,讲述了:阿里云数据库又被顶级机构点名了!近日,全球最知名的数据管理系统评测标准化TPC组织公布了数据库领域分析性能基准测试最新排名,阿里云超大规模分析型数据库AnalyticDB登上榜首,是全球首个通过TPC严格审计认证的云数据库产品。
Spark修炼之道(高级篇)——Spark源码阅读:第一节 Spark应用程序提交流程
作者:摇摆少年梦
微信号: zhouzhihubeyond
spark-submit 脚本应用程序提交流程
在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:
root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin#
.