HIVE

首页 标签 HIVE
# HIVE #
关注
5954内容
Hive 工作原理详解
什么是Hive?        Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。
CentOS7下安装CDH,clouderamanager,hadoop
一、实验背景 我们是四台电脑一起搭建Hadoop集群 A,B,C,D四个人个有一台电脑,分别在各自的电脑上安装虚拟机,虚拟机装centOS7。(我们建议主机namenode内存大一点8g,硬盘最好100g以上,其余节点2g,50g即可,下文会阐述原因) 系统:VMware下的centOS7 jdk:1.
[Hive]Union使用指南
1. union语法 select_statement UNION [ALL | DISTINCT] select_statement UNION [ALL | DISTINCT] select_statement ... UNION将多个SELECT语句的结果集合并为一个独立的结果集。
MaxCompute_SQL_开发指南
背景及目的 本文结果都是在SQL标准语义模式下的推导结果,希望大家都能够按照标准的SQL语义来写SQL,这样才能保证后续SQL的可移植性。 SQL概述 MaxCompute SQL适用于海量数据(GB、TB、EB级别),离线批量计算的场合。
利用 sparksession读取Parquet,Json格式文件
Spark支持的一些常见的格式: 文本文件:无任何的格式 json文件:半结构化 parquet:一种流行的列式存储格式 sequencefile:一种(k-v)的Hadoop文件格式.
免费试用