HMS数据库设置和优化-阿里云开发者社区

HMS数据库设置和优化

2021-12-03 766

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云原生数据库 PolarDB MySQL 版，Serverless 5000PCU 100GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介： Hive Metastore (HMS) 是一种服务，用于在后端 RDBMS（例如 MySQL 或 PostgreSQL）中存储与 Apache Hive 和其他服务相关的元数据。本文主要分享HMS数据库设置和优化

设置 Metastore 数据库

如果您有本地集群，则需要知道如何为 Hive Metastore (HMS) 设置后端数据库。设置包括安装受支持的数据库、配置属性、指定 Metastore 位置。您还可以配置可选的连接参数。

您需要为 Hive Metastore (HMS) 安装支持的数据库来存储元数据。您可以通过修改hive-site.xml. 您可以使用 Cloudera Manager 安全阀功能而不是hive set key=value在命令行上。

设置后端 Hive Metastore 数据库

CDP公有云后端Hive Metastore数据库仅支持PostgreSQL，一般无需手动安装。在CDP Private Cloud Base 中，您需要安装、启动和配置后端数据库。

在此过程中，您将在与 HiveServer 不同的节点/集群上安装数据库，以便与 Hive、Impala、Spark 和其他组件共享 Hive 元存储 (HMS)。不要将 HiveServer 和数据库放在同一个节点上。您的集群中可以有一个或多个 HMS 实例，它们可以在出现问题时接管。

安装受支持的数据库。

MariaDB/MySQL
PostgreSQL
Oracle

配置 Metastore 数据库属性

在CDP Private Cloud Base 中，您可以通过使用 Cloudera Manager 安全阀功能间接修改hive-site.xml来配置 Hive 和 Hive 元存储。一个循序渐进的过程向您展示了如何设置一些属性名称和值来代替hive set key=value在命令行上使用，这是不受支持的。

此任务假定数据库正在运行myhost，用户帐户是hiveuser，密码是mypassword。根据您的数据库类型替换以下连接 URL 和驱动程序名称。

MySQL 连接URL：jdbc:mysql://myhost/metastore

MySQL 驱动程序名称：com.mysql.jdbc.Driver

Postgres 连接URL：jdbc:postgresql://myhost/metastore

Postgres 驱动程序名称：jdbc:postgresql://myhost/metastore

Oracle 连接 URL：jdbc:oracle:thin:@//myhost/xe

Oracle 驱动程序名称：oracle.jdbc.OracleDriver

以下组件正在运行：

HiveServer
Hive Metastore
Metastore 的数据库，例如默认的 MySQL 服务器
Hive 客户端

最低要求角色：配置者（也由集群管理员、完全管理员提供）

通过导航到Cloudera Manager > Hosts > Role(s)并查看角色列表以查找Hive Metastore Server的完全限定域名或 IP 地址。

2. 在Clusters > Hive Metastore > Configuration 中导航到 Metastore 主机配置，然后搜索 javax.jdo.option.ConnectionURL.

3. 在值中，使用以下语法指定数据库连接字符串： <connection protocol>://<metastore host>/<metastore database>?createDatabaseIfNotExist=true

在以 XML 格式查看中，将出现 XML 配置片段。

<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://10.65.13.98/mydb?createDatabaseIfNotExist=true</value>
<description>Database connection string</description>
</property>

或者，在集群中的所有主机上重复前面的步骤。
以相同的方式，在 Metastore 主机（必需）或所有主机（可选）上指定其他必需的连接属性，如下例所示。

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>(your driver name)</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>mypassword</value>
</property>
<property>
<name>datanucleus.autoCreateSchema</name>
<value>false</value>
</property>
<property>
<name>datanucleus.fixedDatastore</name>
<value>true</value>
</property>
<property>
<name>datanucleus.autoStartMechanism</name>
<value>SchemaTable</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>true</value>
</property>

配置 Metastore 位置和 HTTP 模式

除了需要在CDP Private Cloud Base 中设置的数据库属性之外，还必须配置 Metastore URI 属性。该属性定义了一个或多个 Metastore 位置。

最低要求角色：配置者（也由集群管理员、完全管理员提供）

在Clusters > Hive Metastore > Configuration 中，搜索hive-site.xml

在用于更改 hive-site.xml 中的属性的 Hive Metastore 服务器高级配置安全阀中，单击 + 并hive.metastore.uris使用以下语法添加属性：thrift://<n.n.n.n>:9083

Metastore 主机的 IP 地址或完全限定域名 (FQDN) 替换<n.n.n.n>。

只有 hive-site.xml 中的 Hive Metastore Server Default Group 应定义此属性。

设置 JDBC URL 连接覆盖

您可以配置 HMS 数据库连接的细粒度调整。您指定一个 JDBC URL 覆盖，这取决于您的数据库，用于建立到 Hive 元存储数据库的连接。

此任务仅适用于高级数据库用户。使用此覆盖时，将覆盖以下属性

Hive Metastore 数据库名称
Hive Metastore 数据库主机
Hive Metastore 数据库端口
对 Hive Metastore 数据库启用 TLS/SSL
所需的默认用户角色是配置员。
您知道用于设置以下属性的值：

Hive Metastore 数据库类型
Hive Metastore 数据库用户
Hive Metastore 数据库密码

根据您的集群配置设置 Hive Metastore Database JDBC URL Override 属性的值。

MySQL

jdbc:mysql://<host>:<port>/<metastore_db>?key=value

PostgreSQL

jdbc:postgresql://<host>:<port>/<metastore_db>?key=value

使用服务名称的 Oracle JDBC Thin

jdbc:oracle:thin:@//<host>:<port>/<service_name>

使用 SID 的 Oracle JDBC Thin

jdbc:oracle:thin:@<host>:<port>:<SID>

使用 TNSName 的 Oracle JDBC Thin

jdbc:oracle:thin:@<TNSName>

2. 单击保存。

3. 单击操作>部署客户端配置。

4. 重新启动 Hive Metastore。

优化元存储

与其他调优过程类似，一般 Metastore 调优涉及调整和测试，直到您发现可以提高 Metastore 性能的更改组合。调整建议包括硬件和软件更改。

通常，您需要限制与 Hive Metastore 的并发连接。随着打开连接数量的增加，延迟也会增加。后端数据库问题、Hive 使用不当（例如极其复杂的查询、连接泄漏和其他因素）都会影响性能。

通常的Metastore 调优

尝试进行以下更改以调整 HMS 性能：

确保单个查询访问不超过 10,000 个表分区。如果查询连接表，计算跨所有表访问的组合分区计数。
调整后端（RDBMS）。HiveServer连接HMS，只有HMS连接RDBMS。后端花费的时间越长，HMS 响应相同请求所需的内存就越多。限制后端数据库中的连接数。

MySQL：例如，在 /etc/my.cnf 中：

[mysqld]
datadir=/var/lib/mysql
max_connections=8192
. . .

MariaDB：例如，在 /etc/systemd/system/mariadb.service.d/limits.conf 中：

[Service]
LimitNOFILE=24000
. . .

使用默认的 thrift 属性 (8K)：

hive.server2.async.exec.threads 8192
hive.server2.async.exec.wait.queue.size 8192
hive.server2.thrift.max.worker.threads 8192

datanucleus.connectionPool.maxPoolSize为您的应用程序设置。例如，如果 poolSize = 100，有 3 个 HMS 实例（一个专用于压缩），每个服务器有 4 个池，则可以容纳 1200 个连接。

HMS数据库设置和优化

设置 Metastore 数据库

设置后端 Hive Metastore 数据库

配置 Metastore 数据库属性

配置 Metastore 位置和 HTTP 模式

设置 JDBC URL 连接覆盖

优化元存储

Cloudera大数据技术社区

热门文章

最新文章

相关课程

相关电子书

相关实验场景