Spark

首页 标签 Spark
# Spark #
关注
9106内容
阿里云分析引擎Spark On 多数据源介绍
主题:阿里云分析引擎Spark On 多数据源介绍 讲师:云覆(周广成)--阿里数据库产品专家
阿里封神谈hadoop生态学习之路
在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。
| |
来自: 数据库
分布式(hadoop)内核研发面试指南
本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。
现代流式计算的基石:Google DataFlow
0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...
云Kafka搭配云HBase X-Pack构建一体化数据处理平台
云HBase X-Pack是基于Apache HBase、Phoenix、Spark深度扩展,融合Solr检索等技术,支持海量数据的一站式存储、检索与分析。融合云kafka+云HBase X-Pack能够构建一体化的数据处理平台,支持风控、推荐、检索、画像、社交、物联网、时空、表单查询、离线数仓等场景,助力企业数据智能化。
| |
来自: 云原生
Spark in action on Kubernetes - Spark Operator的原理解析
在上篇文章中,向大家介绍了如何使用Spark Operator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playgroud进行调试与解析,帮助大家更深入的理解Spark Operator的工作原理。
基于Alluxio系统的Spark DataFrame高效存储管理技术
介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平均性能提升了15倍,峰值甚至达到300倍左右。
| |
来自: 云存储
表格存储Tablestore权威指南(持续更新)
表格存储本着提升用户体验的思路,打造《表格存储Tablestore权威指南》。为用户提供可借鉴的开发指导、经典案例。经典案例按照场景应用类型划分,目前提供五类场景:元数据、消息数据、轨迹溯源、科学大数据以及物联网;每个类型下都会提供多种经典场景。
Spark in action on Kubernetes - Playground搭建与架构浅析
### 前言 Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理,虽然Spark也支持了类似Yarn等动态的资源管理器,但是这些资源管理并不是面向动态的云基础设施而设计的,在速度、成本、效率等领域缺乏解决方案
免费试用