Hive 表注释乱码解决-阿里云开发者社区

Hive 表注释乱码解决

2024-05-26 168 发布于湖南

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： Hive元数据在MySQL默认使用`latin1`字符集导致注释乱码。可通过修改MySQL配置文件`/etc/my.cnf`，在`[mysqld]`和末尾添加`character-set-server=utf8`等设置，重启MySQL。然后在Hive数据库中调整表字段、分区字段、索引注释的字符集。注意，这仅对新表生效。测试创建带注释的Hive表，问题解决。

@[toc]

出现原因

一般 Hive 的元数据信息都存储在 MySQL 中，但 MySQL 数据库中的 character_set_server 和 character_set_database 参数，默认都为 latin1 字符集，这两个参数决定了服务器和数据库如何处理和存储数据的字符编码，而我们通常使用的字符集都是 utf8，所以会造成 Hive 中注释出现 ???? 乱码的情况。

可以通过下面的命令在 MySQL 进行检查：

-- 获取 MySQL 与字符集和校对规则相关的配置变量列表
show variables like "colla%";

-- 获取 MySQL 字符集变量列表
show variables like 'chara%';

        
          
        
        
        
          
          AI 代码解读

MySQL 字符集修改

修改 MySQL 配置文件：

vim /etc/my.cnf

        
          
        
        
        
          
          AI 代码解读

添加下列内容：

# 在 [mysqld] 标签下加入
character-set-server=utf8
collation-server=utf8_general_ci

## 在末尾加入
[client]
default-character-set=utf8

        
          
        
        
        
          
          AI 代码解读

添加完成后重新启动 MySQL 服务：

systemctl restart mysqld

        
          
        
        
        
          
          AI 代码解读

调整元数据库字符集

进入 MySQL 中调整下列参数，切换到存储 Hive 元数据信息的库，然后执行。

-- 进入存储 Hive 元数据信息的库
use hive;

-- 修改表字段注释和表注释
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

-- 修改分区字段注释
alter table PARTITION_PARAMS  modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_KEYS  modify column PKEY_COMMENT varchar(4000) character set utf8;

-- 修改索引注释
alter table  INDEX_PARAMS  modify column PARAM_VALUE  varchar(4000) character set utf8;

        
          
        
        
        
          
          AI 代码解读

注意，仅对修改后创建的新表生效！

测试

在 Hive 中创建一个新表，并添加注释信息。

DROP TABLE IF EXISTS sku_info;
CREATE TABLE sku_info(
    `sku_id`      string COMMENT '商品id',
    `name`        string COMMENT '商品名称',
    `category_id` string COMMENT '所属分类id',
    `from_date`   string COMMENT '上架日期',
    `price`       double COMMENT '商品单价'
) COMMENT '商品属性表'
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

        
          
        
        
        
          
          AI 代码解读

问题解决。

相关实践学习

如何快速连接云数据库RDS MySQL

本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL，然后进行数据表的CRUD操作。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

Hive 表注释乱码解决

出现原因

MySQL 字符集修改

调整元数据库字符集

测试

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

Hive 表注释乱码解决

出现原因

MySQL 字符集修改

调整元数据库字符集

测试

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书