utf8改成utf8mb4实战教程

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 在 MySQL 中,系统支持诸多字符集,不同字符集之间也略有区别。目前最常用的字符集应该是 utf8 和 utf8mb4 了,相比于 utf8 ,utf8mb4 支持存储 emoji 表情,使用范围更广。本篇文章将会介绍 utf8 修改成 utf8mb4 字符集的方法。

1. utf8 和 utf8mb4 字符集介绍


字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合。


MySQL 中字符集可以作用于四个级别,分别是:服务器级别、数据库级别、表级别、列级别。服务器级别的比较规则由 character_set_server 参数控制,如果创建数据库、表、列时没有显式的指定字符集,则会继承上一级的字符集。


MySQL 5.7 及之前版本默认的字符集是 latin1 ,MySQL 8.0 版本默认的字符集是 utf8mb4 。不过使用 latin1 容易导致乱码,所以还是 utf8 和 utf8mb4 用途最广泛。utf8 其实是 utf8mb3 的别名,只使用 1~3 个字节表示字符。utf8mb4 使用 1~4 个字节表示字符,能够存储更多的 emoji 表情及任何新增的 Unicode 字符。utf8mb4 兼容 utf8 ,且比 utf8 能表示更多的字符,是 utf8 字符集的超集。所以现在一些新的业务建议将数据库的字符集设置为 utf8mb4 ,特别是有表情存储需求时。


2. 修改字符集方法


目前的互联网业务对 emoji 表情存储的需求越来越多,比如昵称、评论内容等都要支持表情符号,这个时候如果数据库字段用的是 utf8 字符集,则会报如下错误:

java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x95\xF0\x9F...' for column…………


为了业务需求,我们需要将数据库字符集改为 utf8mb4 ,好在 utf8mb4 是 utf8 的超集,除了将编码改为 utf8mb4 外不需要做其他转换。这里简单讲下修改方法。


系统参数修改


首先应该修改系统字符集参数,这样以后创建的库表默认字符集就是 utf8mb4 了。找到配置文件,添加或修改以下参数:

vi /etc/my.cnf
[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_general_ci
skip-character-set-client-handshake
#忽略应用连接自己设置的字符编码,保持与全局设置一致
[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4


修改数据库字符集


对于已经创建的数据库,如果原来是 utf8 字符集,则可以这么修改:

# 设置数据库字符集编码
ALTER DATABASE `dbname` CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
# 示例
mysql> show create database testdb;
+----------+-----------------------------------------------------------------+
| Database | Create Database                                                 |
+----------+-----------------------------------------------------------------+
| testdb   | CREATE DATABASE `testdb` /*!40100 DEFAULT CHARACTER SET utf8 */ |
+----------+-----------------------------------------------------------------+
1 row in set (0.00 sec)
mysql> alter database `testdb` CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
Query OK, 1 row affected (0.01 sec)
mysql> show create database testdb;
+----------+--------------------------------------------------------------------+
| Database | Create Database                                                    |
+----------+--------------------------------------------------------------------+
| testdb   | CREATE DATABASE `testdb` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+
1 row in set (0.00 sec)


修改表及字段字符集


同样的,对于已经创建的表,修改全局及数据库的字符集并不会影响原表及字段的字符集。原有的 utf8 表可以采用如下方法修改:

# 修改表字符集
alter table `tb_name` default character set utf8mb4;
# 修改某字段字符集
alter table `tb_name` modify col_name varchar(20) character set utf8mb4;
# 同时修改表及字段字符集
alter table `tb_name` CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
# 如果某个库里面表比较多 可以拼接出要执行的批量修改语句
SELECT
    CONCAT( 'ALTER TABLE ', TABLE_NAME, ' CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;' ) 
FROM
    information_schema.`TABLES` 
WHERE
    TABLE_SCHEMA = 'testdb';


3. 一些建议


看起来修改方法挺简单,不过对于生产环境还是要格外小心。特别是修改字段字符集时,会加锁,阻止写操作,对于大表执行下来也是很慢的,可能对线上业务造成影响。

如果你的数据库比较小,用以上方法应该问题不大。对于线上环境,若要修改字符集,一定要做好评估,最好可以在业务低峰期停机修改,修改前一定要先备份。若无停机时间,可以考虑先在备库修改,然后再主备切换,不过这样做会更麻烦。


有条件的话也可以再准备一个空实例,先导入表结构,改成 utf8mb4 字符集后再导入数据。这也是一种方法,不过也可能需要停机切换。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
Ubuntu 虚拟化
vmware tools选项灰色解决办法(ubuntu 14.04)
vmware tools选项灰色解决办法(ubuntu 14.04)
1513 0
vmware tools选项灰色解决办法(ubuntu 14.04)
|
缓存 应用服务中间件 PHP
502错误是nginx返回的吗(502错误和nginx有关系吗)
本文详细介绍了Nginx出现502 Bad Gateway错误的原因及解决方法,包括缓冲区错误、Header过大和PHP-CGI进程不足等问题,并提供了增大缓冲区、调整Header大小及增加PHP-CGI进程数量的具体步骤。此外,还解释了502错误的含义及其可能原因,如上游服务器故障、网络故障和配置错误,并给出了检查上游服务器、代理配置及联系网络管理员等多种解决方案。以上内容仅供参考,具体操作需根据实际情况调整。
3762 4
|
10月前
|
Linux 数据安全/隐私保护 C语言
新手向导:轻松离线搭建最新版OpenVPN(含一键安装脚本)
OpenVPN 是常用的虚拟私有网络工具,通过 Docker 搭建非常简单。但常用的 kylemanna/openvpn 镜像已三年未更新,停留在 OpenVPN 2.4 版本。为了升级到最新版本(如 2024 年 2 月发布的 v2.6.9),可以通过官方开源社区获取最新安装包并手动编译安装。步骤包括安装依赖、下载并编译 OpenSSL 和 OpenVPN、生成证书和配置文件等。此外,GitHub 上有一键安装脚本 openvpn-install.sh,简化了安装过程,但其版本可能不是最新的。安装完成后,还需配置 iptables 以确保客户端能正常使用代理网络。
13432 1
|
域名解析 对象存储
OSS绑定自定义域名(基于阿里云)
OSS绑定自定义域名(基于阿里云)
1728 0
|
Dart JavaScript 前端开发
npm install node-sass 安装失败的解决方案:利用国内镜像加速安装
npm install node-sass 安装失败的解决方案:利用国内镜像加速安装
6194 1
Pure admin-Router标签页配置以及页面持久化
Pure admin-Router标签页配置以及页面持久化
670 0
|
存储 对象存储
【阿里云OSS】You have no right to access this object because of bucket acl.
【阿里云OSS】You have no right to access this object because of bucket acl.
18155 1
【阿里云OSS】You have no right to access this object because of bucket acl.
|
消息中间件 物联网 RocketMQ
MQTT常见问题之RocketMQ到MQTT的消息轨迹查询失败如何解决
MQTT(Message Queuing Telemetry Transport)是一个轻量级的、基于发布/订阅模式的消息协议,广泛用于物联网(IoT)中设备间的通信。以下是MQTT使用过程中可能遇到的一些常见问题及其答案的汇总:
|
JavaScript
uniapp一个Vue页面引入另一个Vue页面
uniapp一个Vue页面引入另一个Vue页面
341 0
|
XML Java 数据格式
扒一扒Bean注入Spring的那些姿势,你会几种?
这篇文章我准备来扒一扒Bean注入到Spring的那些姿势。 其实关于Bean注入Spring容器的方式网上也有很多相关文章,但是很多文章可能会存在以下常见的问题 - 注入方式总结的不全 - 没有分析可以使用这些注入方式背后的原因 - 没有这些注入方式在源码中的应用示例 - ... 所以本文就带着解决上述的问题的目的来重新梳理一下Bean注入到Spring的那些姿势。
扒一扒Bean注入Spring的那些姿势,你会几种?