实例探究字符编码:unicode,utf-8,default,gb2312 的区别

简介:
 最近做邮件收发,不同的邮件系统间可能会出现编码问题,迫使我重新回来研究一下字符的编码问题,unicode,utf-8,gb2312这些编码格式都是我们熟知的,default 编码格式是哪一种呢?我们用实例来看看:

          
复制代码
  string  str  =   " china,中华人民共和国 " ;
            
byte [] bufferutf8  =  system.text.encoding.utf8.getbytes(str);
            printbyte(
" utf8: " , bufferutf8);


            
byte [] bufferunicode  =  system.text.encoding.unicode.getbytes(str);
            printbyte(
" unicode: " , bufferunicode);


            
byte [] bufferdefault  =  system.text.encoding. default .getbytes(str);
            printbyte(
" default: " , bufferdefault);


            
byte [] buffergb2312  =  system.text.encoding.getencoding ( " gb2312 " ).getbytes(str);
            printbyte(
" gb2312: " , buffergb2312);
复制代码

 

    下面是输出结果:
utf8:   string length:27,code: 
67 104 105 110 97 44 228 184 173 229 141 142 228 186 186 230 176 145 229 133 177 229 146 140 229 155 189 
unicode:string length:26,code: 
67 0 104 0 105 0 110 0 97 0 44 0 45 78 78 83 186 78 17 108 113 81 140 84 253 86 
default:string length:20,code: 
67 104 105 110 97 44 214 208 187 170 200 203 195 241 185 178 186 205 185 250 
gb2312: string length:20,code: 
67 104 105 110 97 44 214 208 187 170 200 203 195 241 185 178 186 205 185 250 

大家看到了,在这个实例中,uft-8格式编码所占字节是最长的,gb2312最短,unicode稍次。再仔细看看utf-8对于"china,"这6个字符的编码:
67 104 105 110 97 44 
gb2312 和 default 编码结果也是这样;

而unicode的编码是:
67 0 104 0 105 0 110 0 97 0 44 0
unicode 编码在英文字符后都补充了一个0,所以unicode是典型的双字节编码,它不区分是英文还是中文,统统用两个字节表示一个字符。

所以,utf-8,gb2312等编码都是“变长编码”的,但是对于中文的编码处理上,gb2312所需的字节更少。
而default 编码,则取决于当前系统编码,比如我们的操作系统安装的时候默认选择的都是“简体中文”(gb2312),所以测试中也证实了当前的环境编码格式

gb2312=default

    因此,我们在使用国外开源的代码的时候,一定要注意编码的问题,如果他们处理字符的时候使用的是ascii,我们使用肯定会出问题,如果使用的是 default,也要当心,他们理解的default是ascii,在对程序后续处理上可能不是我们期望的,也可能会出问题。
    最近的邮件收发我使用了国外的开源项目 openpop 和 opensmtp ,就曾经遇到了编码问题,希望大家以后 使用国外的开源代码对字符编码问题一定要引起注意。

那么我们究竟应该选择何种编码?这取决于实际情况,参看http://faq.csdn.net/read/210325.html (关于unicode和utf8,utf16等)
这篇文章,建议说:

使用utf-8编码,可以使unicode编码的大多数为英文字符(<0x7f)的字符串占用的空间最少,但是使双字节的unicode字符(比如中文)表示来需要三个字节,比起纯粹的双字节表示的unicode字符串来说,各有利弊吧

有关编码的具体定义和关系,请看:
http://zhidao.baidu.com/question/2692826.html (utf8和unicode编码究竟是什么关系?有何区别?)


    本文转自深蓝医生博客园博客,原文链接:http://www.cnblogs.com/bluedoctor/archive/2010/10/28/1863298.html,如需转载请自行联系原作者

相关文章
|
12月前
|
数据采集 存储 数据处理
数据治理:如何制定数据标准与规范
在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长和数据来源的多样化,如何有效地管理和利用这些数据成为了企业面临的重大挑战。数据治理作为确保数据质量、安全性、合规性和可访问性的关键过程,其核心在于制定并执行一套科学、合理的数据标准与规范。本文将探讨如何制定数据标准与规范,以推动企业的数据治理实践。
1907 3
|
11月前
|
关系型数据库 数据库 文件存储
【赵渝强老师】PostgreSQL的表空间
本文介绍了PostgreSQL中的表空间概念及其操作方法,包括查看现有表空间、创建新表空间、在特定表空间上创建表、设置默认表空间以及查询表空间信息等步骤,并提供了相应的命令示例。
382 1
|
小程序 JavaScript 前端开发
小程序常见的UI框架
小程序常见的UI框架
710 60
java代码实现使用网络地址下载文件
java代码实现使用网络地址下载文件
437 0
|
机器学习/深度学习 人工智能 自然语言处理
自动化办公:AI如何改变工作方式
【7月更文第19天】随着人工智能技术的飞速发展,我们的工作方式正经历着前所未有的转型。从繁琐的文档处理到高效的会议安排,再到个性化的邮件回复,AI正逐步成为现代办公不可或缺的一部分。本文将深入探讨AI如何在这些核心办公场景中发挥作用,提升工作效率,优化工作流程,从而推动工作方式的全面革新。
1151 3
|
Prometheus 监控 Cloud Native
性能监控神器Prometheus、Grafana、ELK 在springboot中的运用
【6月更文挑战第27天】在 Spring Boot 应用中,监控和日志管理是确保系统稳定性和性能的重要手段。
1095 4
|
Windows
Windows批处理(BAT)文件执行时“一闪而过或闪退”问题及解决方法
Windows批处理(BAT)文件执行时“一闪而过或闪退”问题及解决方法
5632 1
|
存储 Cloud Native 物联网
数据库技术前沿探索:架构、优化与行业实践
一、引言 在信息化和数字化的浪潮中,数据库技术作为企业核心竞争力的关键要素,其重要性不言而喻
|
关系型数据库 MySQL
navicate远程mysql时报错: connection isbeing used
如果以上方法都无法解决问题,可能需要进一步查看错误日志或考虑联系 Navicat 官方支持获取更详细的帮助。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
1318 0
|
算法 Java C++
秒懂算法 │数论之GCD和LCM
本篇内容介绍了GCD和LCM的多种编码方法及其典型例题。
2809 0
秒懂算法 │数论之GCD和LCM