• 关于

    分布式spark

    的搜索结果
  • 《循序渐进学Spark》一第1章

    本节书摘来自华章出版社《循序渐进学Spark》一书中的第1章,第1.1节,作者   小象学院 杨 磊 更多章节内容可以访问云栖社区“华章计算机”公众号查看。  第1章 Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spar...

    文章 华章计算机 2017-05-02 2195浏览量

  • 《Spark大数据分析实战》——1.2节Spark生态系统BDAS

    本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.2节Spark生态系统BDAS,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.2 Spark生态系统BDAS目前,Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于...

    文章 华章计算机 2017-05-02 1275浏览量

  • 《Spark大数据处理:技术、应用与性能优化》——1.4 Spark分布式架构与单机多核架构的异同

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.4节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 Spark分布式架构与单机多核架构的异同 我们通常所说的分布式系统主要指的是分布式软件系统,它是在通信网络互连的多处理机的架...

    文章 华章计算机 2017-07-03 947浏览量

  • Spark随谈(一)—— 总体架构

    Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。 Spark之依赖 (1)Map Reduce模型 作为一个分布式计算框架,Spark采用了MapReduce模型。...

    文章 中间件小哥 2016-04-08 2762浏览量

  • Spark 概念学习系列之Apache Spark是什么?(一)

    简单地说,        Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、 流处理和图计算等多种计算范式,是大数据系 统领域的全栈计算平台。       Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计...

    文章 技术小哥哥 2017-11-27 993浏览量

  • Spark 概念学习系列之Spark生态系统BDAS(五)

      目前,Spark已经发展成为包含众多子项目的大数据计算平台。 伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。 其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark,提供机器学习功能的系统MLbase及底层的分布式机器...

    文章 技术小哥哥 2017-11-14 3310浏览量

  • 《Spark大数据处理:技术、应用与性能优化》——1.2 Spark生态系统BDAS

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.2节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为...

    文章 华章计算机 2017-07-03 1298浏览量

  • [R]高性能计算SparkR

    Why SparkR Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载 。 而Spark...

    文章 hohooo 2016-09-22 724浏览量

  • 【Spark Summit East 2017】EasyMapReduce:利用Spark与Docker以MapReduce方式赋能大规模科学工具

    更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Marco Cappucini在Sp...

    文章 小猫吃鱼569 2017-02-20 1844浏览量

  • Spark入门

    spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。 spark组件: spark core:spark基本功能,包括任务调度,内存管理,容错机制 内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组...

    文章 daleychao 2017-12-02 1034浏览量

  • Spark Streaming实时流处理学习

    目录 1.初识实时流处理 2.分布式日志收集框架Flume 3.分布式发布订阅消息系统Kafka 4.实战环境搭建 5.Spark Streaming入门 6.Spark Streaming核心概念与编程 7.Spark Streaming进阶与案例实战 8.Spark Streaming整合Fl...

    文章 牦牛sheriff 2018-09-02 1778浏览量

  • 《Spark大数据分析实战》——1.1节初识Spark

    本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.1节初识Spark,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.1 初识SparkSpark是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保...

    文章 华章计算机 2017-05-02 1519浏览量

  • 一键部署 spark

    前言 Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数...

    文章 李世龙ing 1970-01-01 743浏览量

  • 一键部署 spark

    前言 Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数...

    文章 吴梦涵 1970-01-01 861浏览量

  • Apache Spark机器学习.1.2 在机器学习中应用Spark计算

    1.2 在机器学习中应用Spark计算 基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用。Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因...

    文章 华章计算机 2017-05-02 1316浏览量

  • 开源-开源公司-Apache

    Apache开源软件一览: 1.Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问...

    文章 武耀文 2019-05-11 943浏览量

  • 《Spark大数据分析实战》——1.5节本章小结

    本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.5节本章小结,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.5 本章小结本章首先介绍了Spark分布式计算平台的基本概念、原理以及Spark生态系统BDAS之上的典型组件。Spark为用户提供了系统...

    文章 华章计算机 2017-05-02 1020浏览量

  • Spark企业级应用开发和调优

    1.Spark企业级应用开发和调优 Spark项目编程优化历程记录,主要介绍了Spark企业级别的开发过程中面临的问题和调优方法。包含合理分配分片,避免计算中间结果(大数据量)的collect,合理使用map,优化广播变量等操作,降低网络和磁盘IO,提高计算效率。 2.核心技术优化方法对比...

    文章 王小雷 2016-09-05 1442浏览量

  • 老司机告诉你大数据开发:学Hadoop好还是Spark好?

    相信看这篇文章的你们,都和我一样对Hadoop和Apache Spark的选择有一定的疑惑,今天查了不少资料,我们就来谈谈这两种 平台的比较与选择吧,看看对于工作和发展,到底哪个更好。 一、Hadoop与Spark 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。...

    文章 我是秃但是我很聪明 2019-05-01 1443浏览量

  • 流式计算

    从spark 说起,谈谈“流式”计算的理解 spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念: 并行计算 Map Reduce 算子 RDD数据结构 并行计算 spark的任务分为1个driver、多个executo...

    文章 白头雁 2018-08-01 1020浏览量

  • SparkES 多维分析引擎设计

    设计动机 ElasticSearch 毫秒级的查询响应时间还是很惊艳的。其优点有: 优秀的全文检索能力 高效的列式存储与查询能力 数据分布式存储(Shard 分片) 其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。 相应的也存在...

    文章 祝威廉 2016-09-09 1821浏览量

  • hadoop和spark的区别

    学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看(发行版DKhadoop,去大快的网站上应该可以下载到的。)   在学习hadoop的时候查询一些...

    文章 大数据资讯 2018-11-30 1235浏览量

  • 《Scala机器学习》一一第3章 使用Spark和MLlib

    第3章 使用Spark和MLlib 上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库。Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化。数据...

    文章 华章计算机 2017-07-03 1044浏览量

  • 在内存计算时代,看阿里如何用Spark来进行实践与探索

    本文PPT来自阿里云技术专家曹龙(花名:封神)于10月16日在2016年杭州云栖大会上发表的《阿里巴巴Spark实践与探索——内存计算时代》。 随着数据爆发式地增长,如何处理大量的数据成为一项挑战。在此背景下,许多数据处理技术应运而生,这其中典型的技术有数据治理、作业管理、分布式计算和分布式储存等...

    文章 云计算小粉 2016-11-02 4889浏览量

  • 《Spark大数据处理:技术、应用与性能优化》——第1章 Spark 简 介1.1 Spark是什么

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.1节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章 Spark 简 介 本章主要介绍Spark大数据计算框架、架构、计算模型和数据管理策略及Spark在工业界的应用。围绕Sp...

    文章 华章计算机 2017-07-03 1317浏览量

  • 《Scala机器学习》一一第3章 使用Spark和MLlib

    **第3章使用Spark和MLlib**上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库。Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化。数...

    文章 华章计算机 2017-08-02 701浏览量

  • Spark简介及其在ubuntu下的安装使用

    Spark概述 Spark 是一种与 Hadoop 相似的开源集群计算环境,在性能和迭代计算上很有看点,现在是Apache孵化的顶级项目吧。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟...

    文章 张包峰 2013-08-11 1578浏览量

  • Hadoop伪分布式安装Spark

    应用场景 搭建部署了hadoop环境后,使用MapReduce来进行计算,速度非常慢,因为MapReduce只是分布式批量计算,用于跑批的场景,并不追求速率,因为它需要频繁读写HDFS,并不能实时反馈结果,这种跑批的场景用的还是比较少的。一般客户最想看到的是输入后立马有结果反馈。那此时我们...

    文章 wsc449 2017-11-14 1078浏览量

  • Hadoop完全分布式集群安装Spark

    应用场景 当我们安装好Hadoop分布式集群后,默认底层计算是采用MapReduce,速度比较慢,适用于跑批场景,而Spark可以和hadoop完美的融合,Spark提供了更强劲的计算能力,它基于内存计算,速度快,效率高。虽然Spark也支持单机安装,但是这样就不涉及分布式计算,以及分布式...

    文章 wsc449 2017-11-16 1418浏览量

  • 7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

    直播主题 TFPark: Distributed TensorFlow in Production on Apache Spark 讲师: 汪洋英特尔大数据团队的机器学习工程师,专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。 时间: 7月23日 19:...

    文章 开源大数据EMR 2020-07-17 217浏览量

1 2 3 4 ... 61 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板