Hive1/2到Hive3升级规划工具

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 将集群从 Hive1 /2升级到 Hive3?这包括:CDH5→CDP、CDH6→CDP、HDP2→HDP3 或 HDP2→CDP。这种升级的挑战有多种形式。此工具旨在(多次)在 Hive1/2 环境中运行,以收集有关在尝试升级之前需要解决的“什么”的详细信息。

如何使用

包含在 Github 自述文件中:https://github.com/dstreev/cloudera_upgrade_utils/blob/master/hive-sre/README.md

工具介绍

此应用程序有 3 个子程序:

  • sre 用于查找由小文件和过多分区引起的潜在“Hive”性能问题。
  • u3 用于审查 Hive3 升级计划的“Hive 1/2”环境。
  • cli是一个 hdfs 交互式客户端。它是hive-sre应用程序的核心部分,因此我们通过hive-sre-cli可执行文件在此处公开了 shell 。
  • perf 用于检查 JDBC 连接的吞吐量。

支持的 Metastore DB

子程序

数据库

版本

已测试

笔记

u3

MySQL

5.6

有限的测试

建议升级5.7。这是用于 HDP 的较低 MySql 支持的环境


5.7

Yes



5.7

Yes



8.0

No

CDH/HDP 不支持

MariaDB

10.1

No,但应该像 10.2 一样工作



10.2

Yes


PostgreSQL

9.6

No,但应该工作



10

Yes

现场测试,可能仍然是测试的比较粗糙


11

No,但应该在 10 下工作


Oracle

12

Yes

现场测试,可能仍然是测试的比较粗糙

sre

MySQL

5.6

有限的测试

建议升级5.7。这是用于 HDP 的较低 MySql 支持的环境


5.7

Yes



5.7

Yes



8.0

No

CDH/HDP 不支持

MariaDB

10.1

不,但应该像 10.2 一样工作



10.2

Yes


PostgreSQL

9.6

No,但应该工作



10

Yes

现场测试,可能仍然是测试的比较粗糙


11

No,但应该在 10 下工作


Oracle

12

Yes

现场测试,可能仍然是测试的比较粗糙

确保${HOME}/.hive-sre/aux_libs目录中有适合数据库的驱动程序。

我已经尝试尽可能多地匹配 HDP 2.6.5 和 3.1.x 及CDH5/6支持的数据库。

获取二进制文件

使用预建的二进制文件!如果不下载和构建“Hadoop Cli”,您将没有从头开始构建所需的依赖项。

不要构建,在这里下载最新的二进制文件!!!

  • 将发布的“tar.gz”文件下载到临时位置。
  • 解压文件 (tar.gz)。


tar xzvf hive-sre-dist.tar.gzcd hive-sre
  • 作为 root 用户,chmod +x 3 个 shell 脚本文件。
  • 运行“setup.sh”。

./setup

这将创建和安装hive-sre和hive-sre-cli应用程序到您的路径。

在具有默认配置的主机上试用(如果已进行 kerberized,请先获取票证):


hive-sre-cli

或者


hive-sre

配置 hive-sre

有关详细信息,请参阅配置文档

运行

为了简化下面的应用程序的启动,请配置这些核心环境变量。


hive-sre sre -db priv_dstreev -cfg /tmp/test.yaml -o ./sre-out`

输出

输出是一组带有操作和错误信息(遇到时)的文件。这些文件可能是txt文件或markdown. 您可能希望使用markdown查看器来更轻松地查看这些报告。markdown查看器需要支持github markdown表

sre和u3的UI细节

只有活动进程会显示在 UI 中。UI 将每秒刷新一次并在下方显示当前详细信息。

u3中定义了几个“进程” 。每个进程将运行 1 个或多个“子进程”。UI 中的计数器列表特定于该部分中的“进程”和“子进程”。

并发进程数由parallelism上面定义的配置yaml中的变量控制。

  1. hive-sre 版本信息
  2. 元存储 RDBMS 类型
  3. 线程状态 a,b,c - d,e,f,j
  • (a) 核心池大小
  • (b) 最大池大小
  • (c) 最大池大小
  • (d) 活动线程数
  • (e) 已完成的线程任务
  • (f) 剩余线程队列
  • (j) 总任务数
  1. 程序名称
  2. 程序计数 [Total/Completed]
  • Total 是该流程的所有任务的完整计数
  • Completed 是此过程已完成的任务数。
  1. 程序检查 - 程序的子级
  2. 程序检查计数 - errors/successes
  3. 速度 - 以秒为单位的总时间进程已运行。
  4. 速度 - 自作业开始以来每秒完成的平均任务数。
  • 请注意,并非所有任务都是平等的。任务时间因集群的内容和被检查的区域而异。并且很大程度上受 Namenode 性能的影响。

小贴士

  • loc_scan 的排序结果..

sort -k 1 --field-separator="|" loc_scan_missing_dirs.md > loc_scan_missing_dirs_sorted.txt

原文链接:https://github.com/dstreev/cloudera_upgrade_utils/blob/master/hive-sre/README.md

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
SQL 存储 分布式计算
CDP的Hive3系列之Hive Metastore介绍
CDP的Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享元存储。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的 NameNode。
1650 0
CDP的Hive3系列之Hive Metastore介绍
|
SQL 关系型数据库 MySQL
hive数据库操作与sqoop工具的使用
hive数据库操作与sqoop工具的使用
|
SQL 存储 分布式计算
数据仓库工具之Hive的架构原理
数据仓库工具之Hive的架构原理
|
SQL 存储 分布式计算
数仓工具之Hive调优
1、启用Fetch抓取 2、本地模式(调试使用) 3、表的优化 4、合理设置map数以及reduce数 5、JVM重用 6、压缩 7、执行计划
239 0
|
SQL 存储 关系型数据库
CDP中的Hive3系列之Hive性能调优
要将数据从 RDBMS(例如 MySQL)迁移到 Hive,您应该考虑使用带有 Teradata 连接器的 CDP 中的 Apache Sqoop。Apache Sqoop 客户端基于 CLI 的工具在关系数据库和 HDFS 或云对象存储之间批量传输数据。 需要进行提取、转换和加载 (ETL) 过程的遗留系统数据源通常驻留在文件系统或对象存储中。您还可以以分隔文本(默认)或 SequenceFile 格式导入数据,然后将数据转换为 Hive 推荐的 ORC 格式。通常,为了在 Hive 中查询数据,ORC 是首选格式,因为 ORC 提供了性能增强。
442 0
|
SQL 分布式计算 Java
CDP中的Hive3系列之管理Hive的工作负载
作为管理员,要管理工作负载,您将了解什么是资源计划以及如何创建资源计划以改进并行查询执行。当集群共享查询时,并行处理查询很重要。 资源计划是一个自包含的资源共享配置。在集群上每次只有一个资源计划处于活动状态。通常,在活动集群上启用和禁用资源计划不会影响正在运行的查询。作为管理员,您可以应用针对不同情况配置集群的资源计划。例如,您的脚本可以应用将集群配置为处理高流量的资源计划。当流量减少时,您可以切换资源计划以支持交互式数据可视化、深度临时分析和大规模 BI 报告的流量。
291 0
CDP中的Hive3系列之管理Hive的工作负载
|
SQL 存储 分布式计算
CDP中的Hive3系列之Hive3使用指南
在了解了Apache Hive3的特性和启动Hive后,就需要了解如何使用Apache Hive3.
2963 0
CDP中的Hive3系列之Hive3使用指南
|
SQL 存储 JSON
Hive性能调优工具
HQL提供了两个查看查询性能的工具:explain与analyze,除此之外Hive的日志也提供了非常详细的信息,方便查看执行性能和报错排查。
4920 0
Hive性能调优工具
|
SQL Java Apache
一脸懵逼学习Hive的安装(将sql语句翻译成MapReduce程序的一个工具)
Hive只在一个节点上安装即可: 1.上传tar包:这个上传就不贴图了,贴一下上传后的,看一下虚拟机吧: 2.
1625 0
|
SQL 分布式计算 数据库连接
原来MaxCompute还能这么玩系列(2)—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通
本文讲述了如何通过HiveServer2 Proxy来实现Hive生态工具与MaxCompute的互通
9563 0