Alluxio使用——Hive篇

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: 1.服务启停Zookeeper./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg./zookeeper/bin.zkServer.

1.服务启停

Zookeeper

./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg

./zookeeper/bin.zkServer.sh stop

Hadoop

./hadoop/sbin/start-dfs.sh

./hadoop/sbin/stop-dfs.sh

Hive

./hive/bin/hive

./hive/bin/hive --service metastore -p 9083

Alluxio

./alluxio/bin/alluxio local SudoMount

2.Alluxio操作

下载测试数据

稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。

MovieLens 100K电影收视率

稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据,在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。

MovieLens 20M电影收视率

创建目录

./bin/alluxio fs mkdir /ml-100k


./bin/alluxio fs chmod -R 777 /ml-100k

导入测试数据

## 解压测试数据包
unzip ml-100k.zip

## 导入数据
./bin/alluxio fs copyFromLocal ml-100k/u.user alluxio://alluxio_master_hostname:19998/ml-100k

验证数据

3.Hive操作

Jar依赖

将alluxio的客户端jar复制到hive的lib中

cp ./alluxio/client/alluxio-2.0.0.client.jar ./hive/lib

创建hive内部表

CREATE TABLE u_user (
  userid INT,
  age INT,
  gender CHAR(1),
  occupation STRING,
  zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 'alluxio://alluxio_master_hostname:19998/ml-100k';

查询数据

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
7月前
|
SQL 分布式计算 Java
bigdata-17-Hive部署与Hive基础
bigdata-17-Hive部署与Hive基础
131 0
|
SQL 存储 分布式计算
CDP的Hive3系列之Hive Metastore介绍
CDP的Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享元存储。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的 NameNode。
1923 0
CDP的Hive3系列之Hive Metastore介绍
|
SQL 分布式计算 Hadoop
Hive部署
Hive部署
115 0
|
SQL 存储 Java
45 Hive架构
45 Hive架构
39 0
|
SQL 存储 分布式计算
|
SQL 存储 数据库
Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
1.1 Hive简介 1.1.1   什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2   为什么使用Hive Ø  直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大   Ø  为什么要使用Hive 操作接口采用类SQ
26908 0
|
SQL 存储 分布式计算
Hive整合Hbase
HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hive QL的接口来简化MapReduce的使用, 而HBase提供了低延迟的数据库访问。如果两者结合,可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。
302 0
Hive整合Hbase
|
SQL 存储 资源调度
CDP中的Hive3系列之保护Hive3
作为管理员,您需要了解运行 Hive 查询的 Hive 默认授权是不安全的,以及您需要做什么来保护您的数据。您需要了解您的安全选项:设置 Ranger 或基于存储的授权 (SBA),它基于模拟和 HDFS 访问控制列表 (ACL),或这些方法的组合。 将 Apache Hive 访问限制为已批准的用户。Cloudera 推荐 Ranger。授权是检查用户权限以执行选择操作的过程,例如创建、读取和写入数据,以及编辑表元数据。Apache Ranger 为所有 Cloudera 运行时服务提供集中授权。 您可以设置 Ranger 以使用 Hadoop SQL 策略保护托管的 ACID 表或外部表。
904 0
CDP中的Hive3系列之保护Hive3
|
SQL 存储 分布式计算
Hive架构
[toc] 概念 按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点: 使用SQL 数据仓库、管理数据集(表) 基于Hadoop Hive的组件包括HCatalog和WebHCat。
2427 0
|
SQL HIVE 数据格式