如何使用 Hive/HadoopMR 来访问表格存储中的表

使用 Hive/HadoopMR 来访问表格存储中的表

通过[backcolor=transparent] 表格存储及 [backcolor=transparent] E-MapReduce 官方团队发布的依赖包，可以直接使用 Hive 及 HadoopMR 来访问表格存储中的数据并进行数据分析。

安装 JDK-7+

下载并安装 JDK-7+ 安装包。
- Linux/MacOS 系统：使用系统自带的包管理器安装
- Windows 系统：点此下载

按照以下示例进行安装检查。$ java -version

java version "1.8.0_77"

Java(TM) SE Runtime Environment (build 1.8.0_77-b03)

Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)

安装并启动 Hadoop 环境

下载 2.6.0 版本以上的 Hadoop 安装包。（点此下载）
解压并安装，根据实际集群情况安装 Hadoop 服务。
按照如下示例启动 Hadoop 环境。$ bin/start-all.sh
# 检查服务是否成功启动
$ jps
24017 NameNode
24835 Jps
24131 DataNode
24438 ResourceManager
5114 HMaster
24287 SecondaryNameNode
24527 NodeManager

在 /etc/profile 中添加 Hadoop 路径，并执行 source /etc/profile 的命令使配置生效。

export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin

下载及安装 Hive 环境

下载类型为 bin.tar.gz 的 Hive 安装包。（点此下载）
按照如下示例解压安装包。$ mkdir /home/admin/hive-2.1.0
$ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
$ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/

按照如下示例初始化 schema。

# 进入指定的目录
 $ cd /home/admin/hive-2.1.0/
 # 初始化,如果是mysql则derby可以直接替换成mysql
 # 如果执行出错可以删除rm -rf metastore_db/之后重新执行
 $ ./bin/schematool -initSchema -dbType derby

按照如下示例启动 Hive 环境。

$ ./bin/hive
# 检查服务是否成功启动
hive> show databases;
OK
default
Time taken: 0.207 seconds, Fetched: 1 row(s)

下载表格存储的 Java SDK

在 Maven 库中下载 4.1.0 版本以上的 Java SDK 相关依赖包。（点此下载）

[backcolor=transparent]说明：该依赖包会随最新的 Java SDK 发布，请根据最新的 Java SDK 版本下载相关依赖包。
按照如下示例将 SDK 拷贝到 Hive 目录下。$ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/

下载阿里云 EMR SDK

点此下载 EMR SDK 依赖包。

[backcolor=transparent]说明：了解更多 EMR 信息请参考这里。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何使用 Hive/HadoopMR 来访问表格存储中的表

相关文章