大数据(一) - hadoop生态系统及版本演化
              
大数据系列文章汇总链接 - 更新到15篇
HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务            HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版YARN...
              
             
            
            
            
              
              MaxCompute_SQL_开发指南
              
背景及目的
本文结果都是在SQL标准语义模式下的推导结果,希望大家都能够按照标准的SQL语义来写SQL,这样才能保证后续SQL的可移植性。
SQL概述
MaxCompute SQL适用于海量数据(GB、TB、EB级别),离线批量计算的场合。
              
             
            
              
              FlinkX—批流统一的高效数据同步插件
              
什么是FlinkX?
FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾)。
              
             
            
            
            
            
              
              Hive架构
              
[toc]
概念
按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点:
使用SQL
数据仓库、管理数据集(表)
基于Hadoop
Hive的组件包括HCatalog和WebHCat。