Spark

首页 标签 Spark
# Spark #
关注
9105内容
Spark修炼之道(高级篇)——Spark源码阅读:第十三节 Spark SQL之SQLContext(一)
作者:周志湖 1. SQLContext的创建 SQLContext是Spark SQL进行结构化数据处理的入口,可以通过它进行DataFrame的创建及SQL的执行,其创建方式如下: //sc为SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) 其对应的源码为: def
【Spark】环境搭建(CentOS7)
  1. 首先要安装java8,参考 【Linux】Linux服务器(centos7)环境搭建java/python3/nginx 2. 然后安装scala 首先下载scala, 解压,然后 vim /etc/profile 在文件末尾添加, 把路径换成自己的解压路径 export PATH=$PATH:/usr/local/scala-2.
Spark机器学习3·推荐引擎(spark-shell)
![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) ### 准备环境 - jblas https://gcc.
Apache Spark源码走读(六)Task运行期之函数调用关系分析 &存储子系统分析
本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回;以及对存储子系统进行分析 。
Spark Shuffle模块——Suffle Read过程分析
在阅读本文之前,请先阅读Spark Sort Based Shuffle内存分析 Spark Shuffle Read调用栈如下: 1. org.apache.spark.rdd.ShuffledRDD#compute() 2. org.apache.spark.shuffle.ShuffleManager#getReader() 3. org.apache.spar
免费试用