✅生产问题之Emoji表情如何操作存储,MySQL是否支持

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
简介: MySQL支持存储Emoji表情,需使用UTF8MB4编码。UTF8MB3,MySQL早期的UTF-8实现,不支持部分Unicode字符包括Emoji,已被弃用。推荐使用UTF8MB4,它支持全部Unicode字符。转换时,现有UTF8MB3表需转换为UTF8MB4,列和表都需设置相应字符集。

针对 Emoji 表情 MySQL 存储是否支持的问题,结论是:

MySQL 中可以存储 emoji 表情,但需要使用 UTF8MB4 字符编码。如果使用 UTF8MB3,存储这些扩展字符会导致解析错误。

课外补充

MySQL 对 Unicode 的支持

Unicode 字符集已成为计算机科学领域的业界标准,它整理、编码了世界上大部分的文字系统,使得计算机能够更简便地呈现和处理文字。

为了满足不同的数据存储和传递需求,人们开发了多种 Unicode Transformation Format(UTF)编码。主要的 UTF 编码包括 UTF-8、UTF-16 和 UTF-32 等。

根据 MySQL 官方文档

MySQL 主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。这些字符集在支持的字符范围和存储空间需求上有所不同。

字符集 支持的字符 每个字符所需存储空间

utf8mb3, utf8| BMP| 1-3 字节|
| ucs2| BMP| 2 字节|
| utf8mb4| BMP 和补充字符| 1-4 字节|
| utf16| BMP 和补充字符| 2 或 4 字节|
| utf16le| BMP 和补充字符| 2 或 4 字节|
| utf32| BMP 和补充字符| 4 字节|

在 MySQL 官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:
image.png

以上文字大致意思是:"UTF8MB3 字符集已被弃用,它在未来的 MySQL 版本中将会被删除,请使用 UTF8MB4 代替。在目前的 8.0 版本中,utf8 指的就是 UTF8MB3,虽然未来可能改成 UTF8MB4,但是为了避免产生歧义,可以考虑为字符集引用显式指定 UTF8MB4,而不是 utf8。"

这段话的意思是,MySQL 8.0 版本中使用 UTF-8 字符编码实际上是使用了 utf8mb3 编码方式,但 UTF8MB3 已经被弃用,并且在未来的 MySQL 版本中会被移除。因此,建议在设定字符集时明确指定 UTF8MB4,以避免将来可能引起的歧义和问题。

现在我们来详细讨论 UTF8MB3 的情况。

UTF8MB3

utf8mb3 字符集是 MySQL 早期支持的一种字符集,具有以下特征:

  1. 仅支持 Basic Multilingual Plane(BMP)中的字符,不支持补充字符。
  2. 每个多字节字符最多需要三个字节来表示。

BMP 指的是基本多文种平面,其中的字符码位范围在 0 到 65535(或者用 Unicode 表示为 U+0000 到 U+FFFF)。这意味着 utf8mb3 无法存储码位在 U+10000 到 U+10FFFF 之间的补充字符,包括一些生僻的汉字和 Emoji 表情等。

因此,如果在创建 MySQL 表时使用 utf8mb3(即 utf-8)作为字符编码方式,就无法正确存储和处理补充字符。

UTF8MB4

早期的 Unicode 版本只使用了 0 到 0xFFFF 范围的编码,称为 BMP(Basic Multilingual Plane)字符集。因此,最初 MySQL 设计时只涵盖了支持 BMP 字符集的 utf8mb3(即 utf-8)。随着需求增加,包含在 Unicode 标准中的字符数量也增加了。

因此,早期的 utf8mb3 在某些情况下无法满足需求,特别是随着 Unicode 标准支持更多字符时,三个字节的编码空间变得不足以覆盖所有字符。

为了解决这个问题,MySQL 在 5.5.3 版本之后引入了 utf8mb4 字符集。

utf8mb4 字符集具有以下特点:

  1. 支持 BMP 和补充字符,即能够表示从 0 到 0x10FFFF 的所有 Unicode 字符。
  2. 每个多字节字符最多需要四个字节来编码。

utf8mb4 与 utf8mb3 字符集不同的地方在于,utf8mb3 仅能表示 BMP 字符,而 utf8mb4 则能够处理补充字符。对于 BMP 字符,utf8mb4 和 utf8mb3 的存储方式相同,但对于补充字符,utf8mb4 需要四个字节来存储,而 utf8mb3 则无法处理这些字符。

因此,为了确保能够存储和处理 Unicode 标准中的所有字符,特别是包括 Emoji 表情在内的补充字符,建议在创建 MySQL 表时使用 utf8mb4 字符集,而不是 utf8。

UTF8MB3 和 UTF8MB4 区别及优缺点

前面已经分别介绍了 utf8mb3 和 utf8mb4 字符集,它们的区别总结如下:

  • utf8mb3 只支持 BMP(Basic Multilingual Plane)中的字符,而 utf8mb4 则支持 BMP 以及补充字符。
  • 每个字符在 utf8mb3 中最多使用 3 个字节来编码,而在 utf8mb4 中最多使用 4 个字节。
  • utf8mb4 能够表示更多的补充字符,但因为每个字符可能使用更多的字节,所以在存储空间上可能会比 utf8mb3 占用更大。

总之,utf8mb4 相比 utf8mb3 提供了更广泛的字符支持,尤其是对于包含 Emoji 表情在内的补充字符,但这也可能导致数据存储时占用更多的空间。

从 utf8mb3 转换成 utf8mb4

首先,将字符集从 utf8mb3 转换到 utf8mb4 其实并不困难:

对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特性:相同的编码值、相同的编码方式以及相同的长度。

对于补充字符,utf8mb4 需要使用 4 个字节进行存储,而 utf8mb3 则无法存储这些字符。当将使用 utf8mb3 的列转换为 utf8mb4 时,您无需担心补充字符的转换问题,因为 utf8mb3 根本不支持补充字符。

假设已有一张表使用了 utf8mb3 字符集:


CREATE TABLE t1 (
  col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL,
  col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL
) CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4:

ALTER TABLE t1
  DEFAULT CHARACTER SET utf8mb4,
  MODIFY col1 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,
  MODIFY col2 CHAR(10)
    CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;
相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
24天前
|
关系型数据库 MySQL
【mysql技巧】如何在这个mysql语句执行前加个前提,也就是只有表里没有相同数据才进行添加插入操作
【mysql技巧】如何在这个mysql语句执行前加个前提,也就是只有表里没有相同数据才进行添加插入操作
18 1
|
2天前
|
SQL 运维 关系型数据库
MySQL 中 GRANT 操作会引起复制中断吗?
GRANT 操作并不是一个原子性操作,不管执行成功与否,都会触发一个隐式重载授权表的行为。 在生产环境中需要规范用户创建及授权的操作,不推荐使用 DML 语句去直接变更 mysql.user 表,可能会引发其他的问题,若使用了 DML 语句进行变更, 需要手工执行 flush privileges。
17 4
|
5天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之从mysql读数据写到hive报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
5天前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之运行mysql to doris pipeline时报错,该如何排查
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
5天前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错合集之整库同步mysql到starRock提交任务异常,该如何处理
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
14天前
|
SQL 关系型数据库 MySQL
「Python入门」python操作MySQL和SqlServer
**摘要:** 了解如何使用Python的pymysql模块与MySQL数据库交互。首先,通过`pip install pymysql`安装模块。pymysql提供与MySQL的连接功能,例如创建数据库连接、执行SQL查询。在设置好MySQL环境后,使用`pymysql.connect()`建立连接,并通过游标执行SQL(如用户登录验证)。注意防止SQL注入,使用参数化查询。增删改操作需调用`conn.commit()`来保存更改。pymssql模块类似,但导入和连接对象创建略有不同。
15 0
「Python入门」python操作MySQL和SqlServer
|
20天前
|
SQL 存储 关系型数据库
|
23天前
|
关系型数据库 MySQL 数据库
『Django』模型入门教程-操作MySQL
一个后台如果没有数据库可以说废了一半。日常开发中大多数时候都在与数据库打交道。Django 为我们提供了一种更简单的操作数据库的方式。 在 Django 中,模型(Model)是用来定义数据库结构的类。每个模型类通常对应数据库中的一个表,类的属性对应表中的列。通过定义模型,Django 的 ORM(Object-Relational Mapping)可以将 Python 对象映射到数据库表,并提供一套 API 来进行数据库操作。 本文介绍模型的用法。
|
3天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute操作报错合集之配置mysql数据源querysql模式,同步到MC时遇到报错,该怎么处理
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5天前
|
DataWorks 关系型数据库 MySQL
DataWorks操作报错合集之从OceanBase(OB)数据库调度数据到MySQL数据库时遇到连接报错,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

相关产品

  • 云数据库 RDS MySQL 版