Unicode字段也有collation

简介: 原文: Unicode字段也有collation 转自:http://blogs.msdn.com/b/apgcdsd/archive/2011/01/11/unicode-collation.
原文: Unicode字段也有collation

转自:http://blogs.msdn.com/b/apgcdsd/archive/2011/01/11/unicode-collation.aspx

一个常常让人困惑的问题就是,为什么SQL Server 的Unicode 字段(nvarchar/nchar/ntext)也有collation定义呢?Unicode字段不是可以存储多语言吗?比如下面的表定义:

 

CREATE TABLE tt1

(

  c1 int,

  c2 nvarchar(10)  collate Chinese_PRC_Stroke_CI_AS

 )

 

上门的c2 字段是nvarchar类型,那么加的collate Chinese_PRC_Stroke_CI_AS有啥意义呢。 或许你会问,如果我不加上collate不就行啦. 其实如果没有后面的collate, SQL server 会缺省给你加上数据库的collation. 也就是说nvarchar/nchar等字段一定是有collation的.

 

那么上面定义的collate有何意义?是否就是指这个c2字段只能存放中文字符呢?不是. Unicode 的collation 的作用是排序规则. 就是说, 这个字段依旧可以存放多国语言,但是你只能指定一种排序规则,如上面的table, 我指定的排序规则就是按照中文排序,即使你存放的是别的语言..

 

让我们看一看例子:

 

IF OBJECT_ID ('tt1','U') IS NOT NULL

drop table tt1

go

CREATE TABLE tt1

(

  c1 int,

  c2 nvarchar(10)  collate Chinese_PRC_Stroke_CI_AS

 )

  

go  

 

INSERT tt1 VALUES (1, N'');

INSERT tt1 VALUES (2, N'');

INSERT tt1 VALUES (3, N'');

INSERT tt1 VALUES (4, N'');

GO

select * from tt1 order by c2

 

结果如下:

 

c1          c2

----------- ----------

1           一

2           二

3           三

4           四

 

(4 row(s) affected)

 

你可以看到c2列的排序结果不错. 如果我们使用另外一种collation, 那么结果可能是不同的,让我们看看:

 

IF OBJECT_ID ('tt1','U') IS NOT NULL

drop table tt1

go

CREATE TABLE tt1

(

  c1 int,

  c2 nvarchar(10)  collate latin1_general_cs_as

 )

  

go  

 

INSERT tt1 VALUES (1, N'');

INSERT tt1 VALUES (2, N'');

INSERT tt1 VALUES (3, N'');

INSERT tt1 VALUES (4, N'');

GO

select * from tt1 order by c2

 

 

结果是不一样的, C2列的order by 结果和上面是有差异的:

 

c1          c2

----------- ----------

1           一

3           三

2           二

4           四

 

(4 row(s) affected)


目录
相关文章
|
21天前
|
存储 SQL 关系型数据库
详解MySQL字符集和Collation
详解MySQL字符集和Collation
26 2
|
3月前
|
存储 自然语言处理 关系型数据库
字符集详解
字符集详解
30 0
|
11月前
|
关系型数据库 MySQL Shell
[ERROR] COLLATION ‘utf8_unicode_ci‘ is not valid for CHARACTER SET ‘latin1‘
[ERROR] COLLATION ‘utf8_unicode_ci‘ is not valid for CHARACTER SET ‘latin1‘
|
关系型数据库 MySQL Shell
latin1字符集的数据转换为utf8字符集
latin1字符集的数据转换为utf8字符集
855 0
ANSI - Unicode - UTF8 转换
ANSI - Unicode - UTF8 转换
79 0
|
关系型数据库 MySQL
MySQL字符类型排序规则COLLATE
MySQL字符类型排序规则COLLATE
|
存储 人工智能 关系型数据库
utf8字符集下的比较规则
在MySQL中,比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的,utf8是utf8mb3的别名,所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符,如果大家有使用4字节编码一个字符的情况,比如存储一些emoji表情啥的,需要使用utf8mb4。其实每个字符集下对应着若干个比较规则(也可以翻译为排序规则或校对规则,英文是COLLATE),同一字符集下,使用不同的比较规则会影响字符字段的比较和排序。本文以utf8为例,介绍下常用的几个比较规则的不同。
282 0
utf8字符集下的比较规则