• 通过Spark Streaming作业处理Kafka数据

    本节介绍如何使用阿里E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。前提条件 已注册阿里账号,详情请参见注册账号。已开通E-MapReduce服务。已完成账号的授权,详情请...
    文章 2019-12-27 4086浏览量
  • 阿里E-MapReduce产品简介

    因为 E-MapReduce 本质就是 Hadoop 和 Spark 的集群服务,您完全可以将其使用的阿里 ECS 主机视为自己专属的物理主机。以下示例列出了 E-MapReduce 使用的经典场景。批量数据处理 Ad hoc 数据分析查询 海量数据...
    文章 2017-08-31 3688浏览量
  • Spark集群搭建记录|计算[CentOS7]|Spark配置

    如若不是请自行改名为sparkchown-R root/usr/local/sparkrm-rf spark.master.tar.gzstep5 集群启动在主机操作&xff1a;启动hadoop:/usr/local/hadoop/sbin/start-all.sh启动spark的Master/usr/local/spark/sbin/start-...
    文章 2022-06-15 59浏览量
  • 阿里 E-MapReduce产品优势及使用场景

    因为 E-MapReduce 本质就是 Hadoop 和 Spark 的集群服务,您完全可以将其使用的阿里 ECS 主机视为自己专属的物理主机。以下示例列出了 E-MapReduce 使用的经典场景。批量数据处理 Ad hoc 数据分析查询 海量数据...
    文章 2018-09-12 1983浏览量
  • 2016年北京中国计算技术大会见闻

    此次大会有3天,第一天全部为topic,随后分为了若干个场次,有《Container技术峰会》、《大数据核心技术与应用实战峰会》、《计算核心技术与架构》,第三天为《中国Spark技术峰会》、《OpenStack技术峰会》、...
    文章 2016-05-17 3985浏览量
  • 阿里一键部署 Spark 分布式集群

    Master上安装Spark,并将配置正确后的Spark Home目录远程复制到Slave主机上,并设置环境变量。aria2c$SparkUrl ", mkdir-p$SPARK_HOME tar zxvf spark-*hadoop*.tgz-C$SPARK_HOME cd$SPARK_HOME mv spark-...
    文章 2017-04-17 12605浏览量
  • 计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark|...

    所以说只能够设置三个虚拟机来配置分布式集群三个节点分别为master,slave1,slave2博客记录Hadoop集群搭建记录|计算[CentOS7]|伪分布式集群[主机名与ip映射&43;修改配置文件]链接Hadoop集群搭建记录|计算[CentOS7...
    文章 2022-06-14 56浏览量
  • Spark集群搭建记录|计算[CentOS8]|Scala Maven项目...

    spark:/主机名:7077&34;val sc&61;new SparkContext(conf) val rdd&61;sc.textFile(&34;hdfs:/主机名:9000/tmp/test.txt&34;flatMap(_.split(&34;34;map((_,1)).reduceByKey(_&43;rdd.saveAsTextFile(&34;hdfs:/主机...
    文章 2022-06-15 36浏览量
  • 《循序渐进学Spark》一1.2 在Linux集群上部署Spark

    本节以阿里Linux主机为例,描述集群环境及Spark开发环境的搭建过程。Spark计算框架以Scala语言开发,因此部署Spark首先需要安装Scala及JDK(Spark1.5.0需要JDK1.7.0或更高版本)。另外,Spark计算框架基于持久化层...
    文章 2017-05-02 1930浏览量
  • TalkingData的Spark On Kubernetes实践

    利用实现资源水平扩展,以防止资源突增 资源扩展 在采用以下两种方法增加资源使用率时,集群可能会面临资源短缺和可用性的问题: 混合部署 资源超卖 这会导致运行资源大于实际物理资源的情况(我称之为资源挤兑)...
    文章 2019-05-22 2450浏览量
  • 阿里大数据+AI技术沙龙上海站回顾|​揭秘TPC-DS ...

    作为运行在阿里平台上的一种大数据处理的系统解决方案,阿里 Elastic MapReduce(E-MapReduce)构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用 Hadoop 和 Spark...
    文章 2019-11-26 6310浏览量
  • 阿里大数据+AI技术沙龙上海站回顾|​揭秘TPC-DS ...

    作为运行在阿里平台上的一种大数据处理的系统解决方案,阿里 Elastic MapReduce(E-MapReduce)构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用 Hadoop 和 Spark...
    文章 2019-11-27 6080浏览量
  • 阿里ECS使用体验

    我之前还有很多web项目都是放在本地主机上的,我想我可以尝试部署在服务器上试试。另外 我也想建立属于自己的博客。正常情况自己使用服务器是一笔不小的开销,但是感谢阿里让我们这些学生党能享受到优惠的政策,...
    文章 2022-04-19 62浏览量
  • 开源大数据技术专场(上午):Spark、HBase、JStorm...

    通过封神了解到,在上午的专场中,阿里高级技术专家无谓、阿里技术专家封神、阿里巴巴中间件技术部高级技术专家天梧、阿里巴巴中间件技术部资深技术专家纪君祥将给大家带来Hadoop、Spark、HBase、JStorm Turbo等...
    文章 2016-10-16 9170浏览量
  • Tablestore+Delta Lake(快速开始)

    作者:王卓然 花名琸然 阿里存储服务技术专家 背景介绍 近些年来HTAP(Hybrid transaction/analytical processing)的热度越来越高,通过将存储和计算组合起来,既能支持传统的海量结构化数据分析,又能支持快速的...
    文章 2019-11-29 3023浏览量
  • Spark 颠覆 MapReduce 保持的排序记录

    同时,据我们所知,这也是公用环境首次完成的PB级 排序测试。为什么会选择排序?排序的核心是shuffle操作,数据的传输会横跨集群中所有主机。Shuffle基本支持了所有的分布式数据处理负载。举个例子,在一个 连接了...
    文章 2017-06-08 1505浏览量
  • docker下的spark集群,调整参数榨干硬件

    可见hdfs容器的文件目录对应的是宿主机的/var/lib/docker/volumes;用df-m看看磁盘空间情况,如下所示,"/var/lib/docker/volumes"所在的"/dev/nvme0n1p3"设备可用空间只有20多G(29561),显然在保存大量文件时这个...
    文章 2022-08-20 103浏览量
  • 原生开源大数据平台的入门使用

    E-MapReduce(简称“EMR”)是原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR...
    文章 2022-03-06 70浏览量
  • 什么是神龙大数据加速引擎MRACC

    神龙大数据计算加速引擎MRACC-SPARKMRACC-SPARK是阿里神龙计算加速团队基于阿里IaaS资源层研发和维护的高效SPARK加速组件&xff0c;旨在实现开源兼容以及无感地加速您的大数据任务。MRACC-SPARK支持基于开源SPARK...
    文章 2022-07-25 151浏览量
  • 开源大数据周刊-第35期

    2017年值得关注的十大IaaS发展趋势如今各服务供应商开始为客户提供更多选择,包括遍布全球各地的主机、更多虚拟化实例配置以及工作负载优化机制,同时亦推出了更多对云环境内数据进行管理与分析的选项。...
    文章 2016-12-22 2328浏览量
  • 怎么实现微服务的实时性能分析?

    整体的环境是一个 OpenStack ,一组基于微服务的应用程序运行在不同租户的网络中,还有一个小型Spark集群。在每个 Nova 计算主机上安装的软件网络 tap 来捕获通过租户网络内的网络数据包。从租户网络中捕获的 Wire...
    文章 2017-08-01 1160浏览量
  • 开源大数据周刊-第40期

    这也是继“主机系统国家工程实验室”之后浪潮获得的第二个国家工程实验室。技术 使用Phoenix通过sql语句更新操作HBase数据 HBase 提供很方便的shell脚本,可以对数据表进行 CURD 操作,但是有一定的学习成本的。...
    文章 2017-02-09 2527浏览量
  • Spark(十二)-Spark On Yarn&Spark as a Service...

    这就很像计算模型 我们将Spark集群部署好,将适用于各种场景作业的jar包分配上去,而外面的人通过REST接口来调用我们提供的各种服务,这就是Spark as a Service 其中典型的实现是JobServer JobServer其实就是一套...
    文章 2015-05-29 1060浏览量
  • 转:Kubernetes 与原生应用概览

    Kubernetes 与原生应用概览2017 年 9 月&xff0c;Mesos 宣布支持 Kubernetes&xff0c;而在 2017 年 10 月份的 DockerCon EU 上&xff0c;Docker 公司宣布官方同时支持 Swarm 和 Kubernetes 容器编排&xff0c;Kubernetes ...
    文章 2022-12-28 20浏览量
  • MaxCompute Spark开发指南

    MaxCompute Spark是阿里提供的Spark on MaxCompute的解决方案,能够让Spark应用运行在托管的MaxCompute计算环境中。为了能够在MaxCompute环境中安全地运行Spark作业,MaxCompute提供了以下SDK和MaxCompute Spark...
    文章 2019-03-04 4863浏览量
  • 【两万字总结】Spark安装部署与入门(一)

    Spark 在 Hadoop、Apache Mesos、Kubernetes、单机或云主机中运行。它可以访问不同的数据源。您可以使用它的独立集群模式在 EC2、Hadoop YARN、Mesos 或 Kubernetes 上运行 Spark。访问 HDFS、Apache Cassandra、...
    文章 2022-11-12 57浏览量
  • Tablestore+Delta Lake(快速开始)

    本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。背景介绍 近些年来HTAP(Hybrid transaction/analytical processing)的热度越来越高,通过将存储和...
    文章 2019-09-26 7675浏览量
  • IBM LinuxONE 在手,开源开放易如反掌

    1个开放的生态系统:通过IBM技术中心,开放主机社区,学术举措与培训计划,开放大型机项目;1天:LinuxONE完成300亿次RESTful web交互;1个服务器:相当于8000台虚拟机,毫秒级响应速度,open SQL/NoSQL 2x更佳...
    文章 2017-06-04 1447浏览量
  • 部署Spark2.2集群(on Yarn模式)

    IP地址hostname(主机名)身份192.168.119.163node0NameNode、ResourceManager、HistoryServer、Master192.168.119.164node1DataNode、NodeManager、Worker192.168.119.165node2DataNode、NodeManager、Worker、...
    文章 2022-08-16 89浏览量
  • 《Scala机器学习》一一3.2 理解Spark的架构

    在这种情况下,Spark执行器将通过随机打开的端口与本地主机通信。YARN是用Java编写的,这会出现不可预测的GC暂停,从而导致较重的延迟长尾。如果这些资源调度程序都不可用,则独立模式会在每个节点上启动org.apache....
    文章 2017-07-04 1791浏览量
1 2 3 4 ... 14 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化