常见的七种Hadoop和Spark项目案例
大数据中比较火爆的Hadoop、Spark和Storm,最常见的七种项目你们是否已经了解到位了呢,下面一起了解一下吧
一、数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。
hive数据迁移
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。
[export/import]
设置默认需要导出的hive数据库
在hive目录/etc/alternatives/hive-conf下添加.hiverc
vi ~/.hiverc
use test;
创建数据临时目录
hdfs dfs -mkdir /tmp/
CarbonData集群模式体验
官方提供了一个快速上手的 Quick-Start ,不过是采用spark-shell local模式的。我这里在实际集群环境做了下测试,并且记录了下过程,希望对大家有所帮助。
hive orc文件读取
支持增删改查建表:
create table orc_table(id int, name string) clustered by (id) into 4 buckets stored as orc
TBLPROP...
配置安全的Impala集群集成Sentry
本文主要记录配置安全的Impala集群集成Sentry的过程。Impala集群上配置了Kerberos认证,并且需要提前配置好Hive与Kerberos和Sentry的集成:
使用yum安装CDH Hadoop集群
Hive配置kerberos认证
Impala配置kerberos认证
配置