• 关于

    spark sql执行流程

    的搜索结果
  • Spark SQL概念学习系列之Spark SQL 架构分析(四)

     Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎。 Spark SQL 的查询优化是Catalyst,其基于 Scala 语言开发,可以灵活利用 Scala 原生的语言特性很方便进行功能扩展,奠定...

    文章 技术小哥哥 2017-11-13 1268浏览量

  • Spark中的资源调度

    Spark中涉及的资源调度可以分为4层: YARN对不同SparkApplication(SparkContext)的调度 同一个SparkAppliction内不同资源池(pool)之间的调度 同一个SparkAppliction内同一个资源池(pool)内不同TaskSetManager的调...

    文章 寒沙牧 2018-12-21 6314浏览量

  • 《Spark大数据分析实战》——3.1节SQL on Spark

    本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.1节SQL on Spark,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.1 SQL on SparkAMPLab将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理。而其中很重要的...

    文章 华章计算机 2017-05-02 1692浏览量

  • Spark SQL程序设计(1)

    Spark SQL编写流程 1. SparkSession对象 封装了spark sql执行环境信息,是所有Spark SQL程序的唯一入口 sparkSession中包含  sparkContext和sqlContext两个对象,不用再自己创建sparkContext 2. 创建DataFra...

    文章 五维空间s 2018-03-01 1250浏览量

  • Spark修炼之道系列教程预告

    课程内容 Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲) Spark修炼之道(进阶篇)——Spark入门到精通(30讲) Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲) Spark修炼之道(高级篇)——Spark源码解析(50讲) 部...

    文章 周志湖 2015-08-24 4285浏览量

  • Spark 概念学习系列之Spark生态系统BDAS(五)

      目前,Spark已经发展成为包含众多子项目的大数据计算平台。 伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。 其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark,提供机器学习功能的系统MLbase及底层的分布式机器...

    文章 技术小哥哥 2017-11-14 3368浏览量

  • 《Spark大数据分析实战》——1.2节Spark生态系统BDAS

    本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.2节Spark生态系统BDAS,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.2 Spark生态系统BDAS目前,Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于...

    文章 华章计算机 2017-05-02 1309浏览量

  • SparkSQL架构

    Spark SQL运行架构  Spark SQL由Core、Catalyst、Hive和Hive-Thriftserver组成   core:负责处理数据的输入/输出,从不同的数据源获取数据(如RDD、Parquet文件和json文件等),然后将查询结果输出成DataFrame   Catalys...

    文章 liurio 2017-06-15 808浏览量

  • Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析

    1.整体运行流程 使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程 // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql....

    文章 周志湖 2015-12-31 2816浏览量

  • Spark(三) -- Shark与SparkSQL

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45726665 首先介绍一下Shark的概念 Sh...

    文章 xiaohei.info 2015-05-14 950浏览量

  • 《Spark大数据处理:技术、应用与性能优化》——1.2 Spark生态系统BDAS

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.2节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为...

    文章 华章计算机 2017-07-03 1328浏览量

  • 开源SQL-on-Hadoop系统一览

    引言 查询分析是大数据要解决的核心问题之一,而SQL作为查询分析中使用最简单、最广泛的的语言之一,必然而然的催生了许多支持在Hadoop上使用SQL的系统,这就是所谓的SQL-on-Hadoop系统,其中大众熟知的Hive就是最早的SQL-on-Hadoop系统。 经过若干年的发展,SQL-on-...

    文章 勿烦 2019-02-13 7601浏览量

  • 阿里巴巴瑾谦/沐远:云HBaseSQL及分析——Phoenix&Spark

    在2018年1月的数据库直播大讲堂峰会HBase专场,来自阿里云的研发工程师瑾谦和沐远分享了云HBaseSQL以及分析Phoenix&Spark。本文介绍了详细了Phoinix和Spark的架构,适用性以及优缺点,并在最后规划出未来将要设计的一款更符合用户需求的产品。直播视频:https:...

    文章 云迹九州 2018-01-29 8885浏览量

  • 《循序渐进学Spark》一导读

    Preface 前  言 Spark诞生于美国加州大学伯克利分校AMP实验室。随着大数据技术在互联网、金融等领域的突破式进展,Spark在近些年得到更为广泛的应用。这是一个核心贡献者超过一半为华人的大数据平台开源项目,且正处于飞速发展、快速成熟的阶段。 为什么写这本书 Spark已经成为大数据计算...

    文章 华章计算机 2017-05-02 1720浏览量

  • Spark入门介绍

    前言 Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。具体的概念可以参考spark社区的相关文章 S...

    文章 云hbase+spark 2019-06-22 2138浏览量

  • 《Spark大数据处理:技术、应用与性能优化》——1.3 Spark架构

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.3节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 Spark架构 从上文介绍可以看出,Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务...

    文章 华章计算机 2017-07-03 1288浏览量

  • 干货 | 如何成为大数据Spark高手

    原创: 浪尖原文链接:https://mp.weixin.qq.com/s/jHp-LcqdHSg2DbLhWIbSfg Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算...

    文章 茶什i 2019-12-11 834浏览量

  • [转载] 是时候学习真正的 spark 技术了

    本文转自:https://mp.weixin.qq.com/s/awT4aawtTIkNKGI_2zn5NA 本站转载已经过作者授权。任何形式的转载都请联系原作者(孙彪彪/marketing@qiniu.com)获得授权并注明出处。 spark sql 可以说是 spark 中的精华部分了,我感...

    文章 开源大数据EMR 2018-12-03 1853浏览量

  • MaxCompute Spark开发指南

    MaxCompute Spark开发指南  0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和...

    文章 曲宁(圣远) 2019-03-04 3384浏览量

  • 《循序渐进学Spark》一第1章

    本节书摘来自华章出版社《循序渐进学Spark》一书中的第1章,第1.1节,作者   小象学院 杨 磊 更多章节内容可以访问云栖社区“华章计算机”公众号查看。  第1章 Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spar...

    文章 华章计算机 2017-05-02 2210浏览量

  • SparkSQL DatasourceV2 之 Multiple Catalog

    原文链接作者:马骏杰 问题 SparkSQL是Spark的一个子模块,主要功能是用于处理结构化数据,目前在大数据OLAP领域已经有了广泛的应用。Iceberg作为一个通用的表格式,也已经在数据湖的解决方案中逐渐展现了它的优势。 那该如何将这2者相结合,使得应用SparkSQL + Iceberg...

    文章 开源大数据EMR 2020-04-23 899浏览量

  • 阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!

    4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,性能指标(QphDS)首次超过一千万分,是友商的商业大数...

    文章 开源大数据EMR 2020-04-27 1160浏览量

  • 如何在万亿级别规模的数据量上使用Spark

    一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平...

    文章 风火数据 2018-05-14 1071浏览量

  • HiveSQL到SparkSQL在滴滴的实践

    内容简要:一、背景介绍二、迁移方案三、引擎差异四、迁移结果五、下一步计划  一、背景介绍滴滴SQL任务调度架构l  离线计算现状1)存在Hive和Spark 2套计算引擎;2)Hive是当前SQL任务主要引擎 - 占83%;3&...

    文章 开发者小助手 2021-03-29 54浏览量

  • Spark修炼之道(高级篇)——Spark源码阅读:第十二节 Spark SQL 处理流程分析

    作者:周志湖 下面的代码演示了通过Case Class进行表Schema定义的例子: // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is u...

    文章 周志湖 2015-12-28 2889浏览量

  • 【转】Spark 2.0 技术预览版:更简单、更快速、更智

           自两年前Spark 1.0发布以来,我们收到了很多意见,或褒或贬;而Spark 2.0正是基于我们过去两年来获得的经验总结来构建的,它着重加强了用户喜爱的功能,改善了大家不满的地方。本文总结了Spark2.0的三个主要改进方向:更简单、更快速、更智能        我们欣喜地宣布,从...

    文章 鸿初 2016-06-03 2008浏览量

  • Spark在处理数据的时候,会将数据都加载到内存再做处理吗?

    对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗? 很显然,答案是否定的! 对该问题产生疑问的根源还是对Spark计算模型理解不透彻。 对于Spark RDD,它是一个分布式的弹性数据集,不真正存储数据。如...

    文章 bigdatalearnshare 2020-09-28 451浏览量

  • Apache Spark机器学习.1.5 Spark RDD和DataFrame

    1.5 Spark RDD和DataFrame 本节关注数据以及Spark如何表示和组织数据。我们将介绍Spark RDD和DataFrame技术。 通过本节的学习,读者将掌握Spark的两个关键概念:RDD和DataFrame,并将它们应用于机器学习项目。 1.5.1 Spark RDD Sp...

    文章 华章计算机 2017-05-02 1892浏览量

  • 《Spark核心技术与高级应用》——1.1节什么是Spark

    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.1节什么是Spark,作者于俊 向海 代其锋 马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.1 什么是Spark说起大数据,很多人会想起Doug Cutting以自己儿子玩具小象命名的开源项目Hadoop。...

    文章 华章计算机 2017-05-02 1033浏览量

  • Hive架构及Hive SQL的执行流程解读

    1、Hive产生背景• MapReduce编程的不便性• HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)2、Hive是什么Hive的使用场景是什么?基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功...

    文章 袋鼠云 2020-12-02 417浏览量

1 2 3 4 ... 11 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT