数据湖正在成为新的数据仓库
新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Formation。
Spark Operator浅析
Spark Operator浅析
本文介绍Spark Operator的设计和实现相关的内容.
Spark运行时架构
经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.
在Aliyun E-MapReduce集群上 使用sqoop高级特性
sqoop简介
sqoop是什么
Sqoop是一款开源的软件工具,提供了Hadoop和关系型数据库中的数据相互转移的功能。可以将一个关系型数据库(例如 : MySQL)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
在E-MapReduce集群中使用sqo
一键扩容E-MapReduce集群,运维SO EASY
一键扩容E-MapReduce集群,运维SO EASY
谈到集群运维,我们不得不说说集群的扩容。随着业务量的增长,数据也会跟着增长,这样我们的集群规模也不得不跟着进行扩容。那么集群如何进行扩容呢,我们分下面的两个场景跟大家介绍一下
1. IDC机房集群扩容。当我们集群需要扩容的时候,一般会经过下
阿里云E-MapReduce产品简介
产品概述:
阿里云 Elastic MapReduce(E-MapReduce) 是运行在阿里云平台上的一种大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用Hadoop和Spark生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。