(转载)UTF-8和GBK的编码方式的部分知识:重要

简介: GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。 至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。

GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的网站则用UTF-8节省空间。

 

GBK包含全部中文字符;

UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准,UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。

 

在java中

byte[] default_encode="你好啊".getBytes();
		
		byte[] UTF_encode=null;
		try {
			UTF_encode=	"你好啊".getBytes("UTF-8");
		} catch (UnsupportedEncodingException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		System.out.println("default:"+default_encode.length+",utf8:"+UTF_encode.length);

 

 default_encode.length的值具有不确定型,它跟 "你好啊".getBytes() 采用的默认编码方式有关,默认编码方式是和.java文件的编码方式相同的.

因此最好要得到字符串的二进制形式时最好指定编码方式,否则可能出现一个文件中正常,另一个文件中不正常。

 

相关文章
|
5月前
|
存储 编解码 C语言
ASCII、GBK与UTF-8的联系
ASCII、GBK与UTF-8的联系
81 1
|
4月前
|
存储 自然语言处理 Java
UTF-8编码详解
UTF-8编码详解
|
存储 自然语言处理 算法
UTF-8编码
通过阅读本篇文章,你可以了解到:UTF-8编码的规则。
323 0
UTF-8编码
|
存储 JavaScript 程序员
【字符编码详解】ASCII、GB2312、GBK、UTF-8、UTF-16编码与Unicode字符集
【字符编码详解】ASCII、GB2312、GBK、UTF-8、UTF-16编码与Unicode字符集
731 0
|
JavaScript 前端开发
utf8 and unicode
utf8 and unicode
utf8 and unicode
|
存储 算法 Java
Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解
Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解
370 0
|
存储 关系型数据库 MySQL
关于UTF-8编码相关知识的简单介绍
关于UTF-8编码相关知识的简单介绍
156 0
|
Web App开发 JavaScript Java
编码问题 UTF-8 & GBK
记一次奇怪的编码问题。 * Meta Element vs Response Header * Meta 的作用? * 一个细节 * 细节对编码的影响 ## Meta Element vs Response Header 一个 GBK 编码页面,使用 meta 指定页面编码和使用 response header 指定页面编码。哪个优先级比较高? ###
2393 0