开发者社区> 知与谁同> 正文

如何在 MySQL 中存储 emoji ?

简介:
+关注继续查看

问题还原

使用 erlang 存储一些特殊字符串到 MySQL 的时候,却没法读出来。经检查,这些字符串的二进制格式如下:


  1. <<240,159,152,134,240,159,152,144>>

查看二进制的 unicode 是什么?


  1. 14> unicode:characters_to_list(<<240,159,152,134,240,159,152,144>>).
  2. [128518,128528]
  3. 15> erlang:integer_to_list(128518,16).%%查看十六进制
  4. "1F606"
  5. 16> erlang:integer_to_list(128528,16).
  6. "1F610"

明显,1F606 和 1F610 超过了常见 unicode 字符串 0000-FFFF 的表达范围。

这里引用资料:http://cenalulu.github.io/linux/character-encoding/

1F606 和 1F610 代表什么?

根据 unicode 官网上的说明,这是一种 emoji(表情符号),具体的展示形式与厂商有关。

MySQL 上存储失败的原因

目前来说,多数 MySQL 都是以 utf8 存储,注意 MySQL 的 utf8 和我们所说的传统 utf8 有点区别。MySQL 的 utf8 编码规定了最多只能有 3 个字节,而 emoji 的 unicode 已经超过了 3 个字节,因此 MySQL 的 utf8 无法识别与存储 emoji。

为此可以查阅 MySQL 中关于 unicode 支持的资料,从中可以得知 MySQL 在 5.5 后开始支持 utf8mb4,这种编码支持 1 ~ 4 个字节,这种编码可以表示 emoji。

另外 utf8mb4 向下兼容 utf8。

关于 unicode 与 utf8 的详细介绍,请查看:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

解决方案

将 MySQL 中对应的字段改成 utf8mb4 编码:


  1. ALTER TABLE t1
  2. DEFAULT CHARACTER SET utf8mb4,
  3. MODIFY col1 CHAR(10)
  4. CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,
  5. MODIFY col2 CHAR(10)
  6. CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

参考:http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-upgrading.html

将连接库的连接编码改为 utf8mb4,以 erlang 的连接库 emysql 为例:


  1. emysql:add_pool(pool,[{size,1},{user,"user"},{password,"password"},{host,"host"},{port,3306},{encoding,utf8mb4}]).
  2. %%或者
  3. emysql:add_pool(pool,1,"user","password","host",3306,undefined, utf8mb4).

为了建表方便,可以修改 my.cnf:


  1. # 服务器字符集
  2. [mysql]
  3. default-character-set=utf8mb4
  4. [mysqld]
  5. character-set-server=utf8mb4

原文发布时间为:2016-08-21

本文来自云栖社区合作伙伴“Linux中国”

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Redis --- redis事务和分布式事务锁
Redis --- redis事务和分布式事务锁
4 0
Java并发 --- ThreadLocal简述
Java并发 --- ThreadLocal简述
4 0
Python 面向对象 10: 文件操作
Python 面向对象 10: 文件操作
3 0
Python:飞机大战游戏2:pygame 快速入门
Python:飞机大战游戏2:pygame 快速入门
3 0
RocketMQ入门级使用演示-3
RocketMQ入门级使用演示-3
2 0
从零开始学设计模式(四):工厂模式(Factory Pattern)
工厂模式(Factory Pattern)也是 Java中最常用的设计模式之一。这种类型的设计模式也属于创建型模式,它提供了一种创建对象的最佳方式。
2 0
浅谈如何运用低代码技术助力物流业的发展
随着我国社会的发展和科学技术的进步,物流产业逐渐成为我国国民经济的新增长点,我国物流企业也是蓬勃发展,物流企业要想在新的形势下求得更大发展和壮大,科学的,先进的技术管理系统是不可或缺的。而低代码技术已经向运输,物流和产品追溯等领域拓展,带动低代码技术形成和发展的同时,带动了物流业的快速向前发展。
1 0
Swift-进阶 08:枚举enum
Swift-进阶 08:枚举enum
1 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载