Alluxio使用——Hive篇

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 1.服务启停Zookeeper./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg./zookeeper/bin.zkServer.

1.服务启停

Zookeeper

./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg

./zookeeper/bin.zkServer.sh stop

Hadoop

./hadoop/sbin/start-dfs.sh

./hadoop/sbin/stop-dfs.sh

Hive

./hive/bin/hive

./hive/bin/hive --service metastore -p 9083

Alluxio

./alluxio/bin/alluxio local SudoMount

2.Alluxio操作

下载测试数据

稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。

MovieLens 100K电影收视率

稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据,在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。

MovieLens 20M电影收视率

创建目录

./bin/alluxio fs mkdir /ml-100k


./bin/alluxio fs chmod -R 777 /ml-100k

导入测试数据

## 解压测试数据包
unzip ml-100k.zip

## 导入数据
./bin/alluxio fs copyFromLocal ml-100k/u.user alluxio://alluxio_master_hostname:19998/ml-100k

验证数据

3.Hive操作

Jar依赖

将alluxio的客户端jar复制到hive的lib中

cp ./alluxio/client/alluxio-2.0.0.client.jar ./hive/lib

创建hive内部表

CREATE TABLE u_user (
  userid INT,
  age INT,
  gender CHAR(1),
  occupation STRING,
  zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 'alluxio://alluxio_master_hostname:19998/ml-100k';

查询数据

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
5月前
|
SQL 分布式计算 Java
bigdata-17-Hive部署与Hive基础
bigdata-17-Hive部署与Hive基础
115 0
|
11月前
|
SQL 分布式计算 Hadoop
Hive部署
Hive部署
103 0
|
11月前
|
SQL 存储 Java
45 Hive架构
45 Hive架构
36 0
|
SQL 存储 分布式计算
数据仓库的Hive的Hive架构的HiveServer2
数据仓库是一个面向分析的数据存储系统,其中包含了大量的历史数据,可以用于数据分析和报表生成。Hive是一个开源的数据仓库系统,基于Hadoop平台,可以存储和处理大规模的数据。HiveServer2是Hive的一个重要组成部分,负责接收来自客户端的SQL请求,并将其转换成物理执行计划,然后执行并返回结果。本文将介绍HiveServer2的架构和作用。
259 0
|
SQL 存储 分布式计算
|
SQL 存储 分布式计算
Hive整合Hbase
HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hive QL的接口来简化MapReduce的使用, 而HBase提供了低延迟的数据库访问。如果两者结合,可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。
283 0
Hive整合Hbase
|
SQL Java 分布式数据库
Hive与HBase的集成
Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。
|
分布式计算 Hadoop 分布式数据库
Alluxio使用——HBase篇
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.
2492 0
|
SQL 存储 分布式计算
Hive架构
[toc] 概念 按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点: 使用SQL 数据仓库、管理数据集(表) 基于Hadoop Hive的组件包括HCatalog和WebHCat。
2419 0