HMS数据库设置和优化

本文涉及的产品
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。本文主要分享HMS数据库设置和优化

设置 Metastore 数据库

如果您有本地集群,则需要知道如何为 Hive Metastore (HMS) 设置后端数据库。设置包括安装受支持的数据库、配置属性、指定 Metastore 位置。您还可以配置可选的连接参数。


您需要为 Hive Metastore (HMS) 安装支持的数据库来存储元数据。您可以通过修改hive-site.xml. 您可以使用 Cloudera Manager 安全阀功能而不是hive set key=value在命令行上。


设置后端 Hive Metastore 数据库

CDP公有云后端Hive Metastore数据库仅支持PostgreSQL,一般无需手动安装。在CDP Private Cloud Base 中,您需要安装、启动和配置后端数据库。


在此过程中,您将在与 HiveServer 不同的节点/集群上安装数据库,以便与 Hive、Impala、Spark 和其他组件共享 Hive 元存储 (HMS)。不要将 HiveServer 和数据库放在同一个节点上。您的集群中可以有一个或多个 HMS 实例,它们可以在出现问题时接管。


安装受支持的数据库。

  • MariaDB/MySQL
  • PostgreSQL
  • Oracle


配置 Metastore 数据库属性

在CDP Private Cloud Base 中,您可以通过使用 Cloudera Manager 安全阀功能间接修改hive-site.xml来配置 Hive 和 Hive 元存储。一个循序渐进的过程向您展示了如何设置一些属性名称和值来代替hive set key=value在命令行上使用,这是不受支持的。


此任务假定数据库正在运行myhost,用户帐户是hiveuser,密码是mypassword。根据您的数据库类型替换以下连接 URL 和驱动程序名称。

  • MySQL 连接URL:jdbc:mysql://myhost/metastore

MySQL 驱动程序名称:com.mysql.jdbc.Driver

  • Postgres 连接URL:jdbc:postgresql://myhost/metastore

Postgres 驱动程序名称:jdbc:postgresql://myhost/metastore

  • Oracle 连接 URL:jdbc:oracle:thin:@//myhost/xe

Oracle 驱动程序名称:oracle.jdbc.OracleDriver

  • 以下组件正在运行:
  • HiveServer
  • Hive Metastore
  • Metastore 的数据库,例如默认的 MySQL 服务器
  • Hive 客户端
  • 最低要求角色:配置者(也由集群管理员、完全管理员提供)
  1. 通过导航到Cloudera Manager > Hosts > Role(s)并查看角色列表以查找Hive Metastore  Server的完全限定域名或 IP 地址。


  2.  在Clusters > Hive Metastore > Configuration 中导航到 Metastore 主机配置,然后搜索 javax.jdo.option.ConnectionURL.


  3.  在值中,使用以下语法指定数据库连接字符串: <connection protocol>://<metastore host>/<metastore database>?createDatabaseIfNotExist=true


在以 XML 格式查看中,将出现 XML 配置片段。

<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://10.65.13.98/mydb?createDatabaseIfNotExist=true</value>
<description>Database connection string</description>
</property>
  1. 或者,在集群中的所有主机上重复前面的步骤。
  2. 以相同的方式,在 Metastore 主机(必需)或所有主机(可选)上指定其他必需的连接属性,如下例所示。
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>(your driver name)</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>mypassword</value>
</property>
<property>
<name>datanucleus.autoCreateSchema</name>
<value>false</value>
</property>
<property>
<name>datanucleus.fixedDatastore</name>
<value>true</value>
</property>
<property>
<name>datanucleus.autoStartMechanism</name>
<value>SchemaTable</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>true</value>
</property>

配置 Metastore 位置和 HTTP 模式

除了需要在CDP Private Cloud Base 中设置的数据库属性之外,还必须配置 Metastore URI 属性。该属性定义了一个或多个 Metastore 位置。

  • 最低要求角色:配置者(也由集群管理员、完全管理员提供)
  1. 在Clusters > Hive Metastore > Configuration 中,搜索hive-site.xml


  1. 在用于更改 hive-site.xml 中的属性的 Hive Metastore 服务器高级配置安全阀中,单击 + 并hive.metastore.uris使用以下语法添加 属性:thrift://<n.n.n.n>:9083


     Metastore 主机的 IP 地址或完全限定域名 (FQDN) 替换<n.n.n.n>。

     只有 hive-site.xml 中的 Hive Metastore Server Default Group 应定义此属性。


设置 JDBC URL 连接覆盖

您可以配置 HMS 数据库连接的细粒度调整。您指定一个 JDBC URL 覆盖,这取决于您的数据库,用于建立到 Hive 元存储数据库的连接。


此任务仅适用于高级数据库用户。使用此覆盖时,将覆盖以下属性

  • Hive Metastore 数据库名称
  • Hive Metastore 数据库主机
  • Hive Metastore 数据库端口
  • 对 Hive Metastore 数据库启用 TLS/SSL
  • 所需的默认用户角色是配置员。
  • 您知道用于设置以下属性的值:
  • Hive Metastore 数据库类型
  • Hive Metastore 数据库用户
  • Hive Metastore 数据库密码
  1. 根据您的集群配置设置 Hive Metastore Database JDBC URL Override 属性的值。
  • MySQL
jdbc:mysql://<host>:<port>/<metastore_db>?key=value
  • PostgreSQL
jdbc:postgresql://<host>:<port>/<metastore_db>?key=value
  • 使用服务名称的 Oracle JDBC Thin
jdbc:oracle:thin:@//<host>:<port>/<service_name>
  • 使用 SID 的 Oracle JDBC Thin
jdbc:oracle:thin:@<host>:<port>:<SID>
  • 使用 TNSName 的 Oracle JDBC Thin
jdbc:oracle:thin:@<TNSName>

2.  单击保存。

3.  单击 操作>部署客户端配置。

4.  重新启动 Hive Metastore。


优化元存储

与其他调优过程类似,一般 Metastore 调优涉及调整和测试,直到您发现可以提高 Metastore 性能的更改组合。调整建议包括硬件和软件更改。

通常,您需要限制与 Hive Metastore 的并发连接。随着打开连接数量的增加,延迟也会增加。后端数据库问题、Hive 使用不当(例如极其复杂的查询、连接泄漏和其他因素)都会影响性能。


通常的Metastore 调优

尝试进行以下更改以调整 HMS 性能:

  • 确保单个查询访问不超过 10,000 个表分区。如果查询连接表,计算跨所有表访问的组合分区计数。
  • 调整后端(RDBMS)。HiveServer连接HMS,只有HMS连接RDBMS。后端花费的时间越长,HMS 响应相同请求所需的内存就越多。限制后端数据库中的连接数。


MySQL:例如,在 /etc/my.cnf 中:

[mysqld]
datadir=/var/lib/mysql
max_connections=8192
. . .

MariaDB:例如,在 /etc/systemd/system/mariadb.service.d/limits.conf 中:

[Service]
LimitNOFILE=24000
. . .
  • 使用默认的 thrift 属性 (8K):
hive.server2.async.exec.threads 8192
hive.server2.async.exec.wait.queue.size 8192
hive.server2.thrift.max.worker.threads 8192
  • datanucleus.connectionPool.maxPoolSize为您的应用程序设置。例如,如果 poolSize = 100,有 3 个 HMS 实例(一个专用于压缩),每个服务器有 4 个池,则可以容纳 1200 个连接。
相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5天前
|
数据库 索引
如何优化数据库索引?
【8月更文挑战第14天】如何优化数据库索引?
18 4
|
25天前
|
SQL druid Java
线程池相关故障问题之Druid数据库连接池中,为何需要设置TransactionTimeout
线程池相关故障问题之Druid数据库连接池中,为何需要设置TransactionTimeout
|
4天前
|
存储 SQL 缓存
优化数据库
【8月更文挑战第15天】优化数据库
9 1
|
5天前
|
SQL 存储 数据库
OceanBase数据库优化
【8月更文挑战第14天】OceanBase数据库优化
9 2
|
5天前
|
数据库连接 数据库
实现加载驱动、得到数据库对象、关闭资源的代码复用,将代码提取到相应的工具包里边。优化程序
该博客文章展示了如何通过创建工具类`Connectiontools`实现数据库连接、语句执行以及资源关闭的代码复用,以优化程序并提高数据库操作的效率和安全性。
|
8天前
|
SQL 关系型数据库 MySQL
"告别蜗牛速度!解锁批量插入数据新姿势,15秒狂插35万条,数据库优化就该这么玩!"
【8月更文挑战第11天】在数据密集型应用中,高效的批量插入是性能优化的关键。传统单条记录插入方式在网络开销、数据库I/O及事务处理上存在明显瓶颈。批量插入则通过减少网络请求次数和数据库I/O操作,显著提升效率。以Python+pymysql为例,通过`executemany`方法,可实现在15秒内将35万条数据快速入库,相较于传统方法,性能提升显著,是处理大规模数据的理想选择。
26 5
|
7天前
|
存储 缓存 运维
优化高并发环境下的数据库查询性能:实战经验与技巧
在高并发环境下,数据库性能往往成为系统瓶颈。本文将深入探讨在高并发场景下优化数据库查询性能的策略与实践,包括索引优化、查询优化、数据库架构设计以及缓存机制的应用。通过对具体案例的分析,读者将能够掌握提升数据库性能的关键技术,从而在面对大规模用户请求时提高系统的响应速度和稳定性。
|
10天前
|
存储 关系型数据库 MySQL
"Linux环境下MySQL数据库名及表名大小写敏感性设置详解:从配置到影响,确保数据库操作的准确与高效"
【8月更文挑战第9天】在Linux环境中,MySQL数据库名及表名的大小写敏感性是一项重要配置。默认情况下,MySQL在Linux上区分大小写,但这可通过配置文件 `/etc/my.cnf` 中的 `lower_case_table_names` 参数调整。该参数设为0时,名称存储时保持原样,查询时不区分大小写;设为1则全部转换为小写。通过编辑配置文件并重启MySQL服务,可根据需求灵活控制名称的大小写敏感性,确保数据一致性和应用兼容性。
27 3
|
10天前
|
监控 Oracle 关系型数据库
"深度剖析:Oracle SGA大小调整策略——从组件解析到动态优化,打造高效数据库性能"
【8月更文挑战第9天】在Oracle数据库性能优化中,系统全局区(SGA)的大小调整至关重要。SGA作为一组共享内存区域,直接影响数据库处理能力和响应速度。本文通过问答形式介绍SGA调整策略:包括SGA的组成(如数据缓冲区、共享池等),如何根据负载与物理内存确定初始大小,手动调整SGA的方法(如使用`ALTER SYSTEM`命令),以及利用自动内存管理(AMM)特性实现智能调整。调整过程中需注意监控与测试,确保稳定性和性能。
22 2