java中处理字符编码(网页与数据库)(转)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 首先声明一下,此文章时从网上转载的。如下的某些方法是确实管用,但是从中发现了有一点不足,就是原文笔者没考虑使用不同Web Server时出现的情况,比如文章里我用红色字体画出来的部分代码在Tomcat跑的时候得用他说的方法,不过到了WebSphere的时候必须得用原先的 String name = request.getParameter("name"); 所以采取本文方法的时候不要太死板,多试试。

首先声明一下,此文章时从网上转载的。如下的某些方法是确实管用,但是从中发现了有一点不足,就是原文笔者没考虑使用不同Web Server时出现的情况,比如文章里我用红色字体画出来的部分代码在Tomcat跑的时候得用他说的方法,不过到了WebSphere的时候必须得用原先的 
String name = request.getParameter("name"); 
所以采取本文方法的时候不要太死板,多试试。 

在Java编程中,中文字体编码难倒了不少程序员,如果抓住了影响Java中文显示的几个关键因素,问题将迎刃而解。 
Java是目前最流行的面向对象的编程语言之一,Java支持UTF-8、ISO-8859-1、GBK等各种字体编码,可是发现Java中字体编码的问题仍难倒了不少程序员,网上虽然也有不少关于在Java中如何正确显示中文的文章,但都不够全面,特意总结如下。 

影响Java中字体编码正确显示的有几个因素: 
1)数据库的连接方式; 
2)网页中使用的字体编码; 
3)数据库里存放数据的字体编码; 
4)Java的缺省字体编码。 
如果在编程中遇到不能正确显示中文时,要先弄清楚以上几项所使用的字体编码,再分析找出原因,即可解决问题。 
众所周知,JSP是Java的一种,和网页有关,而网页也有自己的中文编码系统,所以JSP处理中文要比纯Java的类文件更为麻烦。本文的测试数据库是MySQL3.2,数据库连接驱动是用org.gjt.mm.mysql.Driver,这里主要讨论UTF-8和GBK的显示( GB2312是GBK的一个子集,Java中可以使用GBK来代替GB系列)。我们先来研究JSP中字体编码问题, 下面第一到第六点是针对JSP的(因为从数据库里读出中文数据与写入中文数据有所区别,咱们分别说明,前三点是从读取数据库到显示在网页,后三点是从网页输入数据到存入数据库),第七到第九点针对纯Java的类文件。 以下rs表示ResultSet的一个实例,是执行Select语句之后产生的数据集。 

一、数据库连接方式使用UTF-8 

在连接数据库的驱动后面加上这句参数 
useUnicode=true&characterEncoding=UTF-8 
例如: 
jdbc:mysql://localhost/DBVF?autoReconnect=true&useUnicode=true&characterEncoding=UTF-8 

从数据库里读出中文显示在使用GBK的JSP的网页里,如果数据库里存放的字体编码是UTF-8,在JSP中使用 
str=new String(rs.getBytes(1),"UTF-8"); 
或者 
str=rs.getString(1); 
可以正确显示中文。 

如果数据库里存放的是GBK数据,那么JSP中也要使用 
str=new String(rs.getBytes(1),"GBK"); 
来显示正确的中文。 
值得注意的是如果页面使用UTF-8,数据库里存放的是UTF-8,也可以用 
str=new String(rs.getBytes(1),"GBK"); 
正确显示中文。 

如果网页是UTF-8,而数据库里存放的是GBK,无法直接显示中文,需要2步转换, 
str=new String(rs.getBytes(1),"GBK"); 
再 
str=new String(str.getBytes("UTF-8"),"GBK"); 
才可以正确显示中文。 


二、数据库连接方式使用GBK 

在连接数据库的驱动后面加上这句参数 
useUnicode=true&characterEncoding=GBK 
例如: 
jdbc:mysql://localhost/DBVF?autoReconnect=true&UseUnicode=true&characterEncoding=GBK 
从数据库里读出中文,显示在使用GBK的JSP的网页里. 

如果数据库里存放的字体编码是UTF-8,在JSP中一定要使用 
str=new String(rs.getBytes(1),"UTF-8"); 
才正确显示中文。 

如果数据库里存放的是GBK数据,那么JSP中也要使用 
str=new String(rs.getBytes(1),"GBK"); 
或者直接使用 
str=rs.getString(1); 
即可显示正确的中文。 

如果网页是UTF-8,而数据库里存放的是GBK,只能用 
str=new String(rs.getString(1).getBytes("UTF-8"),"GBK"); 
的方法来显示中文. 

如果网页是UTF-8,而数据库里存放的是UTF-8,可用 
str=new String(rs.getBytes(1),"GBK"); 
或者 
rs.getString(1)方法来显示中文。 


三、使用缺省数据库连接方式 

连接数据库的驱动后面没有这句参数 
useUnicode=&characterEncoding= 
例如: 
jdbc:mysql://localhost/DBName?autoReconnect=true 
没有参数 
useUnicode=true&characterEncoding,表示使用默认的ISO-8895-1编码。 

1. 从数据库里读出中文,显示在GBK的网页里。 
如果数据库里存放的字体编码是UTF-8,在JSP网页中一定要使用语句 
str=new String(rs.getBytes(1),"UTF-8"); 
或者 
str= new String(rs.getString(1).getBytes("ISO-8859-1"),"UTF-8"); 
才可正确显示中文。 

如果数据库里存放的是GBK数据,那么JSP中也要使用 
str=new String(rs.getBytes(1),"GBK"); 
或 
str=new String(rs.getString(1).getBytes("ISO-8859-1"),"GBK"); 
显示正确的中文。 

2. 如果网页是UTF-8,不能直接正确显示GBK,需要2步转换 
str=new String(rs.getBytes(1),"GBK"); 
再 
str=new String(str.getBytes("UTF-8"),"GBK"); 
才可以正确显示中文。 

如果数据库里存的是UTF-8,直接用 
str=new String(rs.getBytes(1),"GBK"); 
或者 
str=new String(rs.getString(1).getBytes("ISO-8859-1"),"GBK"); 
就可以显示中文了。 

以上是读取数据库里中文正确显示在网页上,下面三点是如何正确存入数据库。 


四、数据库连接方式使用UTF-8编码 

JSP中要把网页输入的中文存入数据库,通常有一个提交(Submit)的过程,是用 
str = request.getParameter("username"); 
然后执行update或者insert语句来存入数据库。如何赋值给str很重要,而且这里中文输入与网页所使用的字体编码有关。 

1、 网页使用UTF-8,使用 
str = new String(request.getParameter("username").getBytes("ISO-8859-1"),"UTF-8"); 
或者 
str = new String(request.getParameter("username").getBytes(),"UTF-8"); 
都可以使得存到数据库里的数据是UTF-8编码。 

2. 网页使用GBK,使用 
str = new String(request.getParameter("username").getBytes(),"GBK"); 
那么存入数据库的是UTF-8编码。 

3. 值得注意的是使用UTF-8的数据库连接方式不能存得GBK。 


五、数据库连接方式使用GBK编码 

1. 输入使用GBK网页,存到数据库里是GBK的方法: 
str= new String(request.getParameter("username").getBytes("ISO-8859-1"),"GBK"); 
或者 
str= new String(request.getParameter("username").getBytes(),"GBK"); 

2. 网页使用GBK,想存入UTF-8到数据库里,要分2步: 
str=new String(request.getParameter("username").getBytes(),"GBK"); 
再 
str=new String(str.getBytes("UTF-8"),"GBK"); 

3. 网页使用UTF-8,而且使用 
str= new String(request.getParameter("username").getBytes("ISO-8859-1"),"GBK"); 
或者 
str= new String(request.getParameter("username").getBytes(),"UTF-8"); 
那么存到数据库里的数据是UTF-8编码。 

4. 网页使用UTF-8,而且使用 
str= new String(request.getParameter("username").getBytes("ISO-8859-1"),"UTF-8"); 
那么存到数据库里的数据是GBK编码。 


六、数据库连接方式使用缺省,即不使用参数useUnicode和characterEncoding 

1. 网页使用GBK,如果使用 
str= request.getParameter("username"); 
或者 
str= new String(request.getParameter("username").getBytes()); 
那么在数据库里的数据是GBK码。网页使用UTF-8和使用 
str= request.getParameter("username"); 
则存入数据库是UTF-8编码。 

2. 如果使用 
str= new String(request.getParameter("username").getBytes("ISO-8859-1")); 
那么根据网页提供的字体编码而存到数据库里,比如是UTF-8的网页,那么存到数据库中就是UTF-8编码,如果使用GBK网页,那么存到数据库里的字就是GBK编码。 

3. 如果使用 
str= new String(request.getParameter("username").getBytes("UTF-8"),"UTF-8"); 
这一种组合能存到正确的数据外,其他存到数据库里的数据则都是乱码或者错误码。在这个UTF-8组合的特例中,网页使用的是GBK,则存放到数据库里就是GBK,网页使用UTF-8,那么存到数据库里的就是UTF-8。 

4. 网页是GBK的要存得UTF-8,一定需要2步: 
company=new String(request.getParameter("company").getBytes(),"GBK"); 
和 
company=new String(company.getBytes("UTF-8"))。 

5. 网页是UTF-8的,不能存得GBK在数据库里,一句话,改变数据库连接方式不能存得GBK码。 

以上所有的都是基于JSP网页和数据库交换数据,下面讨论一下纯JAVA编程下的字体编码转换。 


七、数据库连接方式使用UTF-8编码 

1. 数据库里的中文是UTF-8,可以转换为GBK,但不能把GBK存入数据库。 

2. 数据库是GBK,如果转换为UTF-8,使用 
content=new String(rs.getBytes(2),"GBK"); 
直接将content存入数据库就可为UTF-8。 


八、数据库连接方式使用GBK编码 

1. 数据库里的中文是UTF-8,如果转换为GBK,使用 
content= new String(rs.getString(2).getBytes(),"UTF-8"); 
再直接使用update或者insert语句插入到数据库,即存得GBK。 

如果使用 
content= new String(rs.getString(2).getBytes(),"GBK"); 
或者 
content= new String(rs.getString(2).getBytes()); 
再存入数据库即存得还是UTF-8编码。 

2. 数据库里的中文是GBK,如果转换为UTF-8,使用 
content= new String(rs.getString(2).getBytes("UTF-8")); 
或者 
content= new String(rs.getString(2).getBytes("UTF-8"),"GBK"); 
再直接使用update或者insert语句插入到数据库,即存得UTF-8。 

3. 如果某个String是GBK,要转换为UTF-8,也是使用 
content= new String(GBKstr.getBytes("UTF-8")); 
或者 
content= new String(GBKstr.getBytes("UTF-8"),"GBK"); 

如果某个String是UTF-8,要转换为GBK,应该使用new String(UTFstr.getBytes("GBK"),"UTF-8")。 


九、数据库连接方式使用缺省,即不跟参数 

1. str2=new String(GBKstr.getBytes("UTF-8"),"ISO-8859-1"); 
可以将数据库里的GBK编码转换为UTF-8。 

2. 读取UTF-8然后存入UTF-8,则用 
str1=new String(UTFstr.getBytes(),"ISO-8859-1"); 
或者 
str1=new String(UTFstr.getBytes("GBK"),"ISO-8859-1"); 

3. 不能实现数据库里的UTF-8转换为GBK。 
如果采用UTF-8的数据库连接方式或者缺省数据连接方式,那么无法将UTF-8转为GBK;而GBK的数据库连接方式可以实现UTF-8和GBK的相互转换。建议大家采用GBK的数据连接方式。

http://lasombra.iteye.com/blog/993069

 

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
13天前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
1月前
|
NoSQL Java API
在Java环境下如何进行Redis数据库的操作
总的来说,使用Jedis在Java环境下进行Redis数据库的操作,是一种简单而高效的方法。只需要几行代码,就可以实现复杂的数据操作。同时,Jedis的API设计得非常直观,即使是初学者,也可以快速上手。
196 94
|
20天前
|
Java 关系型数据库 MySQL
Java汽车租赁系统源码(含数据库脚本)
Java汽车租赁系统源码(含数据库脚本)
36 4
|
6月前
|
XML Java 数据库连接
性能提升秘籍:如何高效使用Java连接池管理数据库连接
在Java应用中,数据库连接管理至关重要。随着访问量增加,频繁创建和关闭连接会影响性能。为此,Java连接池技术应运而生,如HikariCP。本文通过代码示例介绍如何引入HikariCP依赖、配置连接池参数及使用连接池高效管理数据库连接,提升系统性能。
125 5
|
2月前
|
前端开发 JavaScript Java
[Java计算机毕设]基于ssm的OA办公管理系统的设计与实现,附源码+数据库+论文+开题,包安装调试
OA办公管理系统是一款基于Java和SSM框架开发的B/S架构应用,适用于Windows系统。项目包含管理员、项目管理人员和普通用户三种角色,分别负责系统管理、请假审批、图书借阅等日常办公事务。系统使用Vue、HTML、JavaScript、CSS和LayUI构建前端,后端采用SSM框架,数据库为MySQL,共24张表。提供完整演示视频和详细文档截图,支持远程安装调试,确保顺利运行。
125 17
|
2月前
|
存储 传感器 缓存
java变量与数据类型:整型、浮点型与字符类型
### Java数据类型全景表简介 本文详细介绍了Java的基本数据类型和引用数据类型,涵盖每种类型的存储空间、默认值、取值范围及使用场景。特别强调了`byte`、`int`、`long`、`float`、`double`等基本类型在不同应用场景中的选择与优化,如文件流处理、金融计算等。引用数据类型部分则解析了`String`、数组、类对象、接口和枚举的内存分配机制。
86 15
|
3月前
|
人工智能 JavaScript 关系型数据库
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
144 14
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
|
3月前
|
人工智能 JavaScript 安全
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
156 13
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
|
3月前
|
存储 缓存 Java
java语言后台管理ruoyi后台管理框架-登录提示“无效的会话,或者会话已过期,请重新登录。”-扩展知识数据库中密码加密的方法-问题如何解决-以及如何重置若依后台管理框架admin密码-优雅草卓伊凡
java语言后台管理ruoyi后台管理框架-登录提示“无效的会话,或者会话已过期,请重新登录。”-扩展知识数据库中密码加密的方法-问题如何解决-以及如何重置若依后台管理框架admin密码-优雅草卓伊凡
282 3
java语言后台管理ruoyi后台管理框架-登录提示“无效的会话,或者会话已过期,请重新登录。”-扩展知识数据库中密码加密的方法-问题如何解决-以及如何重置若依后台管理框架admin密码-优雅草卓伊凡
|
4月前
|
自然语言处理 Java
Java中的字符集编码入门-增补字符(转载)
本文探讨Java对Unicode的支持及其发展历程。文章详细解析了Unicode字符集的结构,包括基本多语言面(BMP)和增补字符的表示方法,以及UTF-16编码中surrogate pair的使用。同时介绍了代码点和代码单元的概念,并解释了UTF-8的编码规则及其兼容性。
147 60

热门文章

最新文章