• 关于

    spark存储全局变量

    的搜索结果
  • 颠覆大数据分析之Spark VS分布式共享内存系统

    颠覆大数据分析之Spark VS分布式共享内存系统 译者:黄经业    购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不同。DSM系统允许单独读写内存,而Spark只允许进...

    文章 ali清英 2016-04-05 1612浏览量

  • 颠覆大数据分析之Spark VS分布式共享内存系统

    Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不同。DSM系统允许单独读写内存,而Spark只允许进行粗粒度的RDD转换。尽管这限制了能够使用Spark的应用种类,但它对于实现高...

    文章 青衫无名 2017-05-22 1061浏览量

  • 《Spark大数据分析:核心概念、技术及实践》一3.9 共享变量

     本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.9节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.9 共享变量 Spark使用的架构是无共享的。数据分布在集群的各个节点上,每...

    文章 华章计算机 2017-05-02 1077浏览量

  • 阿里云爆款特惠专场,精选爆款产品低至0.95折!

    爆款ECS云服务器8.1元/月起,云数据库低至1.5折,限时抢购!

    广告

  • spark1.6分布式集群环境搭建

    1. 概述 本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。   2. 安装环境 本安装说明的示例环境部署如下: IP 外网IP hostname 备注 10.47.110.38 120.27.1...

    文章 小金子 2016-04-01 799浏览量

  • Spark初窥

    标签(空格分隔): Spark [toc] intro dataset和operation Spark对数据集合的基本抽象叫做Dataset。Dataset可以从文件直接创建,也可以从其他dataset经过transform变换而来。具体变换操作比如: textFile.map(line =&g...

    文章 尊渊 2019-02-18 1125浏览量

  • 《Spark 官方文档》在YARN上运行Spark

    在YARN上运行Spark 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进。 在YARN上启动 首先确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 变量指向一个包含Hadoop集群客户端配置文件的目录。这...

    文章 青衫无名 2017-05-19 2372浏览量

  • 《Spark 官方文档》Spark配置(二)

    内存管理 属性名 默认值 含义 spark.memory.fraction 0.75 堆内存中用于执行、混洗和存储(缓存)的比例。这个值越低,则执行中溢出到磁盘越频繁,同时缓存被逐出内存也更频繁。这个配置的目的,是为了留出用户自定义数据结构、内部元数据使用的内存。推荐使用默认值。请参考th...

    文章 青衫无名 2017-05-19 4943浏览量

  • Spark ListenerBus 和 MetricsSystem 体系分析

    前言 监控是一个大系统完成后最重要的一部分。Spark整个系统运行情况是由ListenerBus以及MetricsSystem 来完成的。这篇文章重点分析他们之间的工作机制以及如何通过这两个系统完成更多的指标收集。 ListenerBus 是如何工作的 Spark的事件体系是如何工作的呢?我们先简...

    文章 祝威廉 2016-09-08 2306浏览量

  • [Spark]Spark 应用程序部署工具spark-submit

    1. 简介 Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序。 可以通过统一的接口使用Spark所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序(It can use all of Spark’s supported cluster managers...

    文章 sjf0115 2017-02-16 1332浏览量

  • Spark SQL玩起来

    标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started、DataSource、Performance Tuning和Distributed SQL Engine部分。不含其他的迁移和PySpark等部分。 Spark SQL介绍 ...

    文章 尊渊 2019-03-26 8605浏览量

  • 编程基本功触类旁通

    版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/42550241 ...

    文章 abel_cao 2015-01-09 499浏览量

  • 《循序渐进学Spark》一2.3 Spark算子

     本节书摘来自华章出版社《循序渐进学Spark》一书中的第2章,第2.3节,作者 小象学院 杨 磊,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 Spark算子 本节介绍Spark算子的分类及其功能。 2.3.1 算子简介 Spark应用程序的本质,无非是把需要处理的数据转换...

    文章 华章计算机 2017-05-02 2023浏览量

  • RDD:基于内存的集群计算容错抽象

    摘要 本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和...

    文章 shiyanjuncn 2016-04-13 2313浏览量

  • 用Flink取代Spark Streaming!知乎实时数仓架构演进

    作者 | 知乎数据工程团队 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够...

    文章 阿里云实时计算Flink 2019-08-05 2310浏览量

  • Apache Spark源码走读(八)Graphx实现剖析&spark repl实现详解

    <一>Graphx实现剖析 概要 图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。 Graphx是一些图的常用算法在Sp...

    文章 许鹏 2016-09-14 3689浏览量

  • 用Flink取代Spark Streaming!知乎实时数仓架构演进

    作者 | 知乎数据工程团队 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够...

    文章 Ververica 2019-06-27 1643浏览量

  • Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

    原文链接:https://databricks.com/blog/2020/07/22/a-comprehensive-look-at-dates-and-timestamps-in-apache-spark-3-0.html 翻译:彭慧波,FreeWheel 基础架构大数据开发工程师 Spar...

    文章 阿里云E-MapReduce团队 2020-08-13 695浏览量

  • Spark 动态资源分配(Dynamic Resource Allocation) 解析

    前言 最近在使用Spark Streaming程序时,发现如下几个问题: 高峰和低峰Spark Streaming每个周期要处理的数据量相差三倍以上,预分配资源会导致低峰的时候资源的大量浪费。 Spark Streaming 跑的数量多了后,资源占用相当可观。 所以便有了要开发一套针...

    文章 祝威廉 2016-09-08 3124浏览量

  • 印象. 2016云栖大会北京峰会:ET出没

    2016杭州云栖大会,10月13-16日,云栖小镇。 是的。从地方网站到无数行业,从技术开发到产业发展,从200人的发展论坛到2.2万参与者与120万直播观众,从一角切入到全局变量,作为中国云计算产业的最为重要的观察窗口之一,阿里云已经连续7年在杭州举办了顶级技术盛会——云栖大会。今年,100余场...

    文章 云栖小秘书 2016-09-09 3598浏览量

  • Spark RDD概念学习系列之Spark的算子的分类(十一)

    Spark的算子的分类        从大方向来说Spark 算子大致可以分为以下两类:      1Transformation 变换/转换算子这种变换并不触发提交作业完成作业中间过程处理。      Transformation 操作是延迟计算的也就是说从一个RDD 转换生成另一个 RDD 的...

    文章 技术小哥哥 2017-11-14 1693浏览量

  • 玩转DB里的数据 — 阿里云DMS任务编排之简介和实操

    1.任务编排介绍 数据库是企业IT系统里的重要基础设施,里面存储了大量有价值的数据资产,如:交易数据、客户数据、订单数据,等等。其实,数据库在企业里一直扮演着一个数据生产者(Producer)的角色,日积月累这些数据会形成一个巨大的宝藏。但是,随着数据库中数据量的增长和数据形态的多样化,如何对数据...

    文章 skin778 2020-06-22 351浏览量

  • Spark算子总结版

    Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。  Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,...

    文章 姚兴泉 2018-08-07 773浏览量

  • 数据科学指南

    数据科学是一个相当庞大且具有多样化的领域,侧重于数学、计算机科学和领域专业知识。但是在本文中大部分内容将涉及到数学基础知识,当然也会介绍一些计算机科学的基本原理。 编程语言 在数据科学领域,最受欢迎的编程语言是Python和R语言。然而我也遇到过使用C/c++、Java和Scala的。而我个人...

    文章 【方向】 2018-04-25 2229浏览量

  • 第一章 Python基础知识

    1.1 介绍      1.1.1 特点      Python是一种面向对象、解释型计算机程序设计语言。语法简洁清晰,强制用空白符作为语句缩进。      Python具有丰富和强大的库,又被称为胶水语言。能把其他语言(主要C/C++)写的模块很轻松的结合在一起。      1.1.2 应用领域...

    文章 李振良 2016-09-11 2662浏览量

  • 日志服务(原SLS)五月份发布:支持SQL进行日志实时分析

    日志服务(原SLS)是针对大规模日志实时存储与查询服务,半年内我们逐步提供文本、数值、模糊、上下文等查询能力。在五月份版本中日志服务提供 SQL 实时统计分析功能 ,能够在秒级查询的基础上支持实时统计分析。 支持SQL包括:聚合、Group By(包括Cube、Rollup)、Having、排序、...

    文章 云雷 2017-05-19 3613浏览量

  • 咱也搞个半小时搞定mysql(基于9000小时定理+概念化学习的现实应用)

    常见很多十天,二十天学会什么东东,当然但多数声音都是吐槽,其实,仔细想想,如果基本掌握一门计算机技能,十天半个月是很正常的,我们简单分析分析。一:技能分级我们简单做个技能分级,就简单的分三个层次吧,想明白了对我们的学习多少会有帮助。第一层:掌握技能的基础应用,比如编程语言,这个层次就是对某一门编程...

    文章 武耀文 2018-08-10 11843浏览量

  • Zookeeper、Hadoop、Sqoop、Mahout、HBase整合安装

    环境说明 系统 CentOS 7.2 用户 root 用户 hadoop 服务器3台 IP:10.1.5.51(master),10.1.5.52(slave1),10.1.5.53(slave2) JAVA 1.7.X Zookeeper版本:3.4.9 Hadoop版本:2....

    文章 风来了 2016-11-29 2289浏览量

  • 伸手党福利-从零开始玩转图库

    名词解释 vetex:节点 edge:边 graph:图 tinkerpop tinkerpop是一个图库标准,一个框架,学习图库,先从这个项目入手比较合适, neo4j, janusGraph只是它两个组件(图storage-engine)的vendor而已。图库是节点&边的集合,边...

    文章 陈江@阿里 2018-06-26 2312浏览量

  • Yarn详解

    问题导读: 1、什么是yarn? 2、Yarn 和MapReduce相比,它有什么特殊作用 ? 背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初M...

    文章 thinkgamer.cn 2015-11-26 563浏览量

  • 《深入理解大数据:大数据处理与编程实践》一一1.1 并行计算技术简介

    本节书摘来自华章计算机《深入理解大数据:大数据处理与编程实践》一书中的第1章,第1.1节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.1 并行计算技术简介 1.1.1 并行计算的基本概念随着信息技术的快速发展,人们对计算...

    文章 华章计算机 2017-07-04 1496浏览量

1 2 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板