• 关于

    spark 数据存储在哪里

    的搜索结果
  • Spark笔试

    1.Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B Mlib C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的端口 (C ) A.8080 B.4040 C.8090 D.18080 3.spark 1.4 版本的...

    文章 wsc449 2018-01-17 1449浏览量

  • 聊聊Spark的分区

    通过之前的文章【Spark RDD详解】,大家应该了解到Spark会通过DAG将一个Spark job中用到的所有RDD划分为不同的stage,每个stage内部都会有很多子任务处理数据,而每个stage的任务数是决定性能优劣的关键指标。 首先来了解一下Spark中分区的概念,其实就是将要处理的数...

    文章 bigdatalearnshare 2020-07-07 85浏览量

  • Apache Spark技术实战(四)spark-submit常见问题及其解决 &CassandraRDD高并发数据读取实现剖析

    <一>spark-submit常见问题及其解决 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢? 本文试就此...

    文章 许鹏 2016-09-14 4125浏览量

  • Quick BI 数据可视化分析平台

    2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

    广告

  • 《Spark官方文档》集群模式概览

    Spark 1.6.0  译者:dlbrant 集群模式概览 本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用,请参考application submission guide 。 组件 Spark应用在集群上运行时,包括了多个独立的进程,这些进程之间通过...

    文章 ali清英 2016-03-31 1606浏览量

  • 《Spark官方文档》集群模式概览

    集群模式概览 本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用,请参考application submission guide 。 组件 Spark应用在集群上运行时,包括了多个独立的进程,这些进程之间通过你的主程序(也叫作驱动器,即:driver)中的Sp...

    文章 青衫无名 2017-05-19 1276浏览量

  • Spark:大数据的电花火石!

    什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark。 当然这里说的Spark指的是Apache Spark,Apache Spark™is a fast and general engine for large-scale ...

    文章 anzhsoft 2014-06-13 1815浏览量

  • Spark 交互式处理上百 TB 数据

    Apache Spark在内存数据处理领域有很多创新。有了这个框架,你可以上传数据到集群内存,并在交互模式下以非常快的速度处理这些数据(交互模式是Spark另一个重要特性)。2014年 Databricks宣布 Apache Spark能在23分钟内完成100T数据的排序。 这里有一个有趣的问题—...

    文章 沉默术士 2017-07-03 808浏览量

  • Apache Spark源码走读(六)Task运行期之函数调用关系分析 &存储子系统分析

    <一>Task运行期之函数调用关系分析 概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 spark已经安装完毕 spark运行在local mode或loc...

    文章 许鹏 2016-09-14 2327浏览量

  • 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

    Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook ...

    文章 开源大数据EMR 2019-12-20 343浏览量

  • 精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站(附PPT下载)

    11月1日,大数据+AI Meetup 第二季·上海站成功举办!来自阿里巴巴、DellEMC、Databricks、滴滴、bilibili、StreamNative、上海力萌的9位技术专家齐聚魔都,集中解读上半年大数据的热门话题。 开源届前浪后浪全员凶猛,合体也成为主流。此次 Meetup 干货满...

    文章 阿里云实时计算Flink 2020-11-01 2140浏览量

  • 精彩回顾 | 大数据+AI Meetup 2020 第二季 ·上海站(附PPT下载)

    11月1日,大数据+AI Meetup 第二季·上海站成功举办!来自阿里巴巴、DellEMC、Databricks、滴滴、bilibili、StreamNative、上海力萌的9位技术专家齐聚魔都,集中解读上半年大数据的热门话题。 开源届前浪后浪全员凶猛,合体也成为主流。此次 Meetup 干货满...

    文章 阿里云E-MapReduce团队 2020-11-03 951浏览量

  • Elasticsearch中的DocValues

    Elasticsearch最近一段时间非常火,以致于背后的公司都改名为Elastic了,因为Elasticsearch已经不仅限于搜索,反而更多的用在大数据分析场景,所以在公司品牌上开始“去Search化”。这得益于其强大的支持聚合分析的Query DSL,虽然这个DSL的语法有点复杂,但底层的技...

    文章 ningoo 2016-02-26 11396浏览量

  • Spark BlockManager的通信及内存占用分析(源码阅读九)

      之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开,即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理,注册Executor的BlockM...

    文章 松伯 2016-11-27 725浏览量

  • 云湖共生,下一代数据湖来了?

    导语:应用导向呈现数据价值,阿里云在数据湖上的创新实践,支撑起数据快速洞察和数据输出迭代。 数据湖并非新概念,最近又被越来越多的人提及,成为新晋网红,并呈现出千人千面的现象。在今年云栖大会上,当云原生数据湖体系在线上正式发布时,就吸引了企业的关注。如果不是2020特殊时期,在10月23日举行的线下...

    文章 阿里巴巴存储技术 2020-11-04 587浏览量

  • 在开始第一个机器学习项目之前就了解的那些事儿

    当我们学习任何一个新的内容或遇到新的事情时,随着时间的推移,可能回过头来会发现,当时要是怎样结果又会怎样。身边很多人包括我自己在读完大学后,发现如果高中再努力一些或重新把大学时间利用好,人生的路途是不是能更顺利些……曾经听一位老师说过“青春就像这样,不管你怎样过都会过得一团糟”。事实上,大多数学生...

    文章 【方向】 2018-03-30 15318浏览量

  • 专访阿里王峰:Hadoop生态下一代计算引擎-streaming和batch的统一

    编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的...

    文章 阿里云头条 2016-02-17 3424浏览量

  • 怎么实现微服务的实时性能分析?

    当开发者从微服务架构获得敏捷时,观测整个系统的运行情况成为最大的痛点。在本文,IBM Research 展示了如何用 Spark 对微服务性能进行分析和统计,由 Cloudinsight 工程师编译整理。 引言 作为一种灵活性极强的构架风格,时下微服务在各种开发项目中日益普及。在这种架构中,应用...

    文章 行者武松 2017-08-01 957浏览量

  • Apache Kylin 云原生架构的思考及规划

    在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。 各位同学,大家下午好!非常高兴今天来到这个场合,给大家...

    文章 开源大数据EMR 2020-02-26 401浏览量

  • Delta Lake,让你从复杂的Lambda架构中解放出来

    作者介绍李潇,现就职于 Databricks,管理两跨国团队,专注于 Apache Spark, Databricks Runtime 和 Koalas 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Flor...

    文章 开源大数据EMR 2020-03-09 1203浏览量

  • 从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

    作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建化流程。主要内容如下: 爱奇艺在实时计算方面的的演化和遇到的一些挑战 爱奇艺使用Flink的User Case 爱奇艺Flin...

    文章 apache_flink 2019-06-20 2655浏览量

  • 专访英特尔STO马子雅:开源BigDL,AI 民主化的一步妙棋

    作为 AI 民主化战略的重要实践之一,英特尔在 2016年 的最后一天,开源了基于 Apache Spark 的分布式深度学习框架 BigDL。最近,英特尔公司软件与服务事业部副总裁、系统技术和优化部门大数据技术总监马子雅女士接受了新智元的专访,畅谈了 BigDL 的特点、应用、未来的改进,以及英...

    文章 知与谁同 2017-08-01 711浏览量

  • 一文读懂大数据计算框架与平台

    1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行...

    文章 小旋风柴进 2017-05-02 2723浏览量

  • 【独家】一文读懂大数据计算框架与平台

    1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行...

    文章 行者武松 2017-05-01 1545浏览量

  • 5W1H(六何分析法)全景洞察大数据

    大数据是什么? 这是一个很大的话题,大数据特点总结起来大约有5个,大量、高速、多样、价值、真实性。笔者也只能根据自己的看法,阐述一二。 大量,根据 中投顾问的数据,最近几年的数据增长为100%-200%左右,国内可使用的数据为ZB级别。一般中小企业的数据在TB到PB左右,后续会讲述,我们的数据...

    文章 hbase小能手 2018-11-05 1882浏览量

  • HBase基本知识介绍及典型案例分析

    本文来自于2018年10月20日由中国 HBase 技术社区在武汉举办的中国 HBase Meetup 第六次线下交流会。 HBase基本知识介绍及典型案例分析 PPT 下载:https://yq.aliyun.com/download/3259  本次分享的内容主要分为以下五点: HB...

    文章 hbase小能手 2018-11-19 2988浏览量

  • 关于DIMMQ: Discardable In-Memory Materialized Query

    背景 最近在看CBO在不同系统里的实现方式,比如flink里在编译时对plan的CBO优化,以及运行时的CBO:Hive、Apache Calcite(即Optiq)的一些内容。 今天第一次看到DIMMQ的概念,聊聊我的几点看法。 参考文章:Discardable Memory and Mate...

    文章 张包峰 2015-02-06 1029浏览量

  • 案例篇-HBase 基本知识介绍及典型案例分析

    本文来自于 2018 年 10 月 20 日由中国 HBase 技术社区在武汉举办的中国 HBase Meetup 第六次线下交流会。HBase 基本知识介绍及典型案例分析 PPT 下载:https://yq.aliyun.com/download/3259 本次分享的内容主要分为以下五点 H...

    文章 hbase小能手 2019-01-10 20522浏览量

  • HBaseCon2016参会报告

    会议概要 2016年5月24日,HBaseCon2016于加州旧金山市内召开,我(绝顶)和大沙作为speaker参加了这次会议并在40分钟的session里介绍了HBase在阿里搜索场景中的应用及改进。本次会议参会的公司阵容包括谷歌、微软、苹果、FaceBook、阿里巴巴等,是有史以来最豪华的,也...

    文章 carp84 2016-06-02 5397浏览量

  • 5W1H(六何分析法)全景洞察大数据

    引言 5W1H(WWWWWH)分析法也叫六何分析法,是一种思考方法,也可以说是一种创造技法。我们也对大数据问些问题,相信这也是很多中小企业面临的现实问题。大数据这个词也是从12年开始慢慢热起来的,经过4年的发展,如今,很多企业已经开始有自己的大数据平台,但是对于更多的企业是没有的。笔者也在成都的云...

    文章 封神 2016-06-30 9735浏览量

  • 日均万亿条数据如何处理?爱奇艺实时计算平台这样做

    摘要:本文由爱奇艺大数据服务负责人梁建煌分享,介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台,并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。提纲如下: 爱奇艺 Flink 服务现状 Flink 改进 实时计算平台 Flink 业务案例 挑...

    文章 阿里云实时计算Flink 2020-03-05 1654浏览量

1 2 3 4 5 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT