Spark的搜索结果_热门-阿里云开发者社区

hbase小能手

|

博文

|

来自：数据库

阿里云分析引擎Spark On 多数据源介绍

主题：阿里云分析引擎Spark On 多数据源介绍讲师：云覆（周广成)--阿里数据库产品专家

# 分布式计算 # 数据库 # Spark

封神

|

博文

|

来自：大数据与机器学习

阿里封神谈hadoop生态学习之路

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

# 开源大数据平台 E-MapReduce # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 分布式数据库 # Spark # Hbase

封神

|

博文

|

来自：数据库

分布式(hadoop)内核研发面试指南

本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引，需要具备哪些要求，如果不具备则可以往这方面努力。

# 分布式计算 # 算法 # Hadoop # Java # Spark

尼不要逗了

|

博文

|

来自：大数据与机器学习

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 分布式计算 # 大数据 # Apache # 流计算 # Spark

云hbase+spark

|

博文

|

来自：数据库

云Kafka搭配云HBase X-Pack构建一体化数据处理平台

云HBase X-Pack是基于Apache HBase、Phoenix、Spark深度扩展，融合Solr检索等技术，支持海量数据的一站式存储、检索与分析。融合云kafka+云HBase X-Pack能够构建一体化的数据处理平台，支持风控、推荐、检索、画像、社交、物联网、时空、表单查询、离线数仓等场景，助力企业数据智能化。

# 云消息队列 Kafka 版 # 云原生数据仓库AnalyticDB MySQL版 # 云数据库HBase版 # 存储 # 分布式计算 # 分布式数据库 # Spark # Hbase

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

# 云原生大数据计算服务 MaxCompute # 数据管理 # 对象存储 # 云解析DNS # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # 缓存 # Spark

莫源

|

博文

|

来自：云原生

Spark in action on Kubernetes - Spark Operator的原理解析

在上篇文章中，向大家介绍了如何使用Spark Operator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playgroud进行调试与解析，帮助大家更深入的理解Spark Operator的工作原理。

# 容器服务Kubernetes版 # 容器计算服务 # 可观测监控 Prometheus 版 # 云解析DNS # 分布式计算 # Spark # 容器 # Perl # Kubernetes

开源大数据EMR

|

博文

|

来自：大数据与机器学习

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

# 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 固态存储 # Spark

潭潭

|

博文

|

来自：云存储

表格存储Tablestore权威指南（持续更新）

表格存储本着提升用户体验的思路，打造《表格存储Tablestore权威指南》。为用户提供可借鉴的开发指导、经典案例。经典案例按照场景应用类型划分，目前提供五类场景：元数据、消息数据、轨迹溯源、科学大数据以及物联网；每个类型下都会提供多种经典场景。

# 表格存储 # 云原生大数据计算服务 MaxCompute # 存储 # NoSQL # 大数据 # SQL # 流计算 # 数据管理 # 分布式计算 # Spark # 数据挖掘 # 关系型数据库

莫源

|

博文

Spark in action on Kubernetes - Playground搭建与架构浅析

### 前言 Spark是非常流行的大数据处理引擎，数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案

# 容器服务Kubernetes版 # 分布式计算 # 大数据 # Spark # 容器 # Kubernetes

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark