Spark的搜索结果_热门-阿里云开发者社区

尼不要逗了

|

博文

|

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

# 开源大数据平台 E-MapReduce # 分布式计算 # 算法 # 大数据 # 流计算 # Spark

公众号胖滚猪学编程

|

博文

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

本文梳理了常见的hadoop生态圈中的组件：Hdfs+Yarn+HBase+Spark+Storm的单点故障问题，出现原因以及单点故障的原理和解决方案（构建HA（High Available）高可用架构）。阅读本文之前，最好了解清楚各组件的架构原理。

# 云数据库 HBase 版 # 云原生大数据计算服务 MaxCompute # 微服务引擎 # 日志服务 # 机器学习/深度学习 # 分布式计算 # 大数据 # 分布式数据库 # Hbase # Spark # 资源调度 # 流计算 # 负载均衡 # 网络安全

大数据史记

|

博文

用Spark分析Amazon的8000万商品评价（内含数据集、代码、论文）

尽管数据科学家经常通过分布式云计算来处理数据，但是即使在一般的笔记本电脑上，只要给出足够的内存，Spark也可以工作正常（在这篇文章中，我使用2016年MacBook Pro / 16GB内存，分配给Spark 8GB内存）。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 数据可视化 # 大数据 # Spark # Python

封神

|

博文

|

来自：数据库

分布式(hadoop)内核研发面试指南

本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引，需要具备哪些要求，如果不具备则可以往这方面努力。

# 分布式计算 # 算法 # Hadoop # Java # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 性能测试 # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # Spark # 测试技术 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。

# 容器服务Kubernetes版 # 分布式计算 # 大数据 # Spark # 容器 # Kubernetes

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

# 云原生大数据计算服务 MaxCompute # 数据管理 # 对象存储 # 云解析DNS # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # 缓存 # Spark

阿里云实时计算Flink

|

博文

|

来自：大数据与机器学习

流计算精品翻译: The Dataflow Model

我们提出了Dataflow模型，并详细地阐述了它的语义，设计的核心原则，以及在实践开发过程中对模型的检验。

# 实时计算 Flink版 # 日志服务 # 分布式计算 # 数据处理 # API # 流计算 # Spark # 测试技术 # Apache # 开发工具 # SQL # HIVE

调皮仔3683

|

博文

Hadoop集群中增加与ElasticSearch连接的操作

# 检索分析服务 Elasticsearch版 # 分布式计算 # Java # 大数据 # Hadoop # Spark

阿里云CloudOps

|

博文

阿里云一键部署 Spark 分布式集群

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，可以完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等。通过ROS大家可以在阿里云上一键部署Spark集群。

# 资源编排 # 分布式计算 # Hadoop # Scala # Spark # 网络安全

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark