让你真正理解什么是SparkContext, SQLContext 和HiveContext-阿里云开发者社区

让你真正理解什么是SparkContext, SQLContext 和HiveContext

2023-01-13 327

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 让你真正理解什么是SparkContext, SQLContext 和HiveContext

第一步spark driver 应用程序创建SparkContext，SparkContext 允许spark driver 应用程序通过资源管理器访问集群。资源管理器可以是Yarn，或则spark集群管理器。为了创建SparkContext，你可以第一步创建SparkConf，SparkConf存储的配置信息， Spark driver 应用程序将传给SparkContext。一些参数定义 Spark driver应用程序属性和用于分配集群资源。比如worker节点运行的executors 的number, memory 大小和cores。 Spark driver 应用程序可以通过setAppName() 自定义。你可以查看spark1.3.1 获取sparkconf的完整参数。SparkConf 文档（http://spark.apache.org/docs/1.3.1/api/scala/index.html）

import org.apache.spark.SparkConf
val conf = new SparkConf().setAppName(“MySparkDriverApp”).setMaster(“spark://master:7077”).set(“spark.executor.memory”, “2g”)

现在我们有SparkConf可以传递给SparkContext，因此我们的应用程序知道如何访问集群。

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
val conf = new SparkConf().setAppName(“MySparkDriverApp”).setMaster(“spark://master:7077”).set(“spark.executor.memory”, “2g”)
val sc = new SparkContext(conf)

现在你的Spark driver应用程序有SparkContext，它知道使用和请求集群资源。如果使用是YARN，hadoop的resourcemanager (headnode)和 nodemanager (workernode) 将会为executors分配container 。如果资源有效的，在集群上executors 将会根据配置参数分配memory和cores。如果你使用Sparks 集群管理器，SparkMaster(headnode) 和SparkSlave (workernode) 将会使用分配在的executors。下面的图展示了他们之间的 driver 应用程序, 集群资源管理器和executors关系

每一个spark driver 应用程序有自己的executors 在集群上。集群保持运行只要spark driver 应用程序有SparkContext。executors 运行用户code，运行计算和缓存应用程序的数据。SparkContext 创建job，分解为stages。

SparkSQL是spark的一个模块，SparkSQL 用来处理结构化数据，所以SparkSQL你的data必须定义schema.在spark1.3.1，sparksql继承dataframes 和a SQL 查询引擎。SparkSQL 有SQLContext 和HiveContext.HiveContext 继承SQLContext.Hortonworks 和 Spark社区建议使用HiveContext.你可以看到下面，当你运行spark-shell,它和driver应用程序是交互的，他会自动创建SparkContext 定义为sc和HiveContext 定义为sqlContext.HiveContext 允许执行sql查询以及Hive 命令.pyspark同样也是。你可以看下 Spark 1.3.1 文档，SQLContext 和HiveContext 在SQLContext documentation and HiveContext documentation（http://spark.apache.org/docs/1.3.1/api/scala/index.html#package）

从上面看出，SparkContext其实是连接集群以及获取spark配置文件信息，然后运行在集群中。

SQLContext 和HiveContext

SQLContext：spark处理结构化数据的入口。允许创建DataFrame以及sql查询

HiveContext：spark sql执行引擎，集成hive数据，读取在classpath的 hive-site.xml配置文件配置Hive

让你真正理解什么是SparkContext, SQLContext 和HiveContext

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

让你真正理解什么是SparkContext, SQLContext 和HiveContext

热门文章

最新文章

相关电子书