Spark的搜索结果_热门-阿里云开发者社区

封神

|

博文

|

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

# 开源大数据平台 E-MapReduce # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 分布式数据库 # Spark # Hbase

轻风_soho

|

博文

Spark搭档Elasticsearch

Spark与elasticsearch结合使用是一种常用的场景，小编在这里整理了一些Spark与ES结合使用的方法。

# 检索分析服务 Elasticsearch版 # 分布式计算 # 大数据 # Scala # Spark # 数据格式

公众号胖滚猪学编程

|

博文

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

本文梳理了常见的hadoop生态圈中的组件：Hdfs+Yarn+HBase+Spark+Storm的单点故障问题，出现原因以及单点故障的原理和解决方案（构建HA（High Available）高可用架构）。阅读本文之前，最好了解清楚各组件的架构原理。

# 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 微服务引擎 # 日志服务 # 机器学习/深度学习 # 分布式计算 # 大数据 # 分布式数据库 # Hbase # Spark # 资源调度 # 流计算 # 负载均衡 # 网络安全

大数据史记

|

博文

用Spark分析Amazon的8000万商品评价（内含数据集、代码、论文）

尽管数据科学家经常通过分布式云计算来处理数据，但是即使在一般的笔记本电脑上，只要给出足够的内存，Spark也可以工作正常（在这篇文章中，我使用2016年MacBook Pro / 16GB内存，分配给Spark 8GB内存）。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 数据可视化 # 大数据 # Spark # Python

最佳实践小文

|

博文

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统，可以轻松集成结构化、半结构化以及非结构化数据集，Spark采用了内存计算，允许数据载入内存作反复查询，融合数据仓库、流处理和图形计算等多种计算范式，Spark能够与Hadoop 很好地结合，Storm用于处理高速、大型数据流的分布式实时计算系用，为Hadoop添加可靠的实时数据处理能力。

# 弹性计算 # 分布式计算 # 监控 # Hadoop # 数据挖掘 # 数据处理 # 对象存储 # Spark # 流计算

技术小能手

|

博文

大数据学习~Hadoop初识三Yarn模式

我们都知道在如今的Hadoop中主要有三个重要的执行管理器。一个HDFS,一个MapReduce,还有就是我们今天要看的 YARN。 2.0以前的Hadoop 在2.0以前的hadoop中是没有Yarn这个模式管理的。

# 云原生大数据计算服务 MaxCompute # 资源调度 # 分布式计算 # Hadoop # 容器 # 调度 # Spark # Hbase # 分布式数据库 # 程序员 # 监控

尼不要逗了

|

博文

|

来自：大数据与机器学习

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 分布式计算 # 大数据 # Apache # 流计算 # Spark

宇珩

|

博文

|

来自：云存储

结构化大数据分析平台设计

前言任何线上系统都离不开数据，有些数据是业务系统自身需要的，例如系统的账号，密码，页面展示的内容等。有些数据是业务系统或者用户实时产生的，例如业务系统的日志，用户浏览访问的记录，系统的购买订单，支付信息，会员的个人资料等。

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 性能测试 # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # Spark # 测试技术 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

# 云原生大数据计算服务 MaxCompute # 数据管理 # 对象存储 # 云解析DNS # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # 缓存 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark