Tomcat源码分析之中文乱码(一)

简介: Tomcat源码分析之中文乱码(一)

 

本系列博客我们将为大家介绍JavaWeb 大家可能遇到的各种烦人的中文乱码问题。虽然您可能已经知道了在某些情况下如何解决中文乱码的问题,但是您不一定知道为什么会产生中文乱码?很多时候了解问题产生的原因远比问题解决方案重要。我们将带领大家从Tomcat源码的角度为大家带来深入的分析,帮助您彻底的理解这些乱码产生的深层次原因。

 

1 问题描述

有两个 JSP 文件,第一个名为 input.jsp,内容非常简单,里面有一个form 表单,表单里面有一个名为 content 的输入框和一个按钮,表单提交给result.jsp处理。

<%@ page contentType="text/html;charset=UTF-8"language="java"%>
<html>
<head>
    <title>Title</title>
</head>
<body>
<form action="result.jsp" method="post">
    <input type="text"name="content"/>
    <input type="submit"value="send"/>
</form>
</body>
</html>

第二个文件叫 result.jsp,接受 input.jsp 表单里面输入框的内容,显示在页面上。

<%@ page contentType="text/html;charset=UTF-8"language="java"%>
<html>
<head>
    <title>Title</title>
</head>
<body>
<%
    String content =request.getParameter("content");
%>
<p><%=content%></p>
</body>
</html>

上面的两个 JSP 文件,相信对大家都不会有问题,编写完成后开始部署运行,当我们访问http://localhost:8080/input.jsp,表单中输入“你好”,点击 submit 后,结果让我们很吃惊,我们竟然看到了一串我们人类并不能理解的字符“ä½ å¥½”。

 

2 源码分析

 

为什么会出现上面的中文乱码情况呢?相信这也是大家刚开始做 JavaWeb 开发的时候遇到的最多的问题之一。可能现在的您已经知道了如何解决上面的中文乱码问题,但是如果面试官为您,为什么会出现这种中文乱码?您能回答出来吗?

 

result.jsp 中只有一行代码,那么显然问题就是出现在这儿。

 

request.getParameter("content")这行代码到底发生了什么?

让我们一点点的来看一看。

 

2.1RequestFacade分析

 

首先我们需要搞明白的一个问题是这个 request 变量是什么类型?然后才能定位到它的 getParameter()方法里面去。难道不是吗?


有些同学说这不是很简单吗,request 变量的类型就是 ServletRequest。


请大家思考这种说法对吗?这句话说了相当于白说,原因很简单,因为 ServletRequest 是一个接口,接口里面并没有实现代码,所以你还是找不到 getParameter()方法的代码。


如何获得 request 对象的真实类型?


接下来给大家介绍的就是一个非常重要的技能,我们可以通过断点调试的方法来获得。


在该行代码上加上断点,然后执行调试。当代码运行到该断点时,将鼠标放在request 上,就会出现下图:              

image.png下图:                          

相信大家现在应该能够确认 request 对象的真实类型是什么了,那就是 RequestFacade,所以我们需要看的代码是 RequestFacade 类的 getParameter()方法,如下所示:

RequestFacade
@Override
public String getParameter(String name) {
    if (request == null) {
        throw new IllegalStateException(
                        sm.getString("requestFacade.nullRequest"));
    }
    if (Globals.IS_SECURITY_ENABLED){
        return AccessController.doPrivileged(
            new GetParameterPrivilegedAction(name));
    } else {
        return request.getParameter(name);
    }
}

注意,此时的 request对象和刚开始遇到的那个 request 不是同一个类型。


此处的 request 类型为org.apache.catalina.connector.Request, 因此我们接下来将分析这个 request 下的 getParameter()方法。

2.2 connector.Request 分析

org.apache.catalina.connector.Request
@Override
public String getParameter(String name) {
    if (!parametersParsed) {
        parseParameters();
    }
    return coyoteRequest.getParameters().getParameter(name);
}

从上面的代码我们可以看到是先解析参数,解析成功后直接从 parameters 属性中直接获得name 值。

parseParameters()方法中代码较多,我们只贴出和我们问题相关的代码。

String enc = getCharacterEncoding();
boolean useBodyEncodingForURI = connector.getUseBodyEncodingForURI();
if (enc != null) {
    parameters.setEncoding(enc);
    if (useBodyEncodingForURI) {
       parameters.setQueryStringEncoding(enc);
    }
} else {
    parameters.setEncoding
        (org.apache.coyote.Constants.DEFAULT_CHARACTER_ENCODING);
    if (useBodyEncodingForURI) {
        parameters.setQueryStringEncoding
            (org.apache.coyote.Constants.DEFAULT_CHARACTER_ENCODING);
    }
}

和我们相关的代码实际上就这些,两个步骤:

首先获得 enc 变量的值,如果不为空的话,就设置编码为 enc, 这里我们看到它同时也设置了 queryString的编码格式。

如果为空的话,直接将编码格式设置为一个常量,而这个常量的值为:

public final class Constants {
    public static final String DEFAULT_CHARACTER_ENCODING="ISO-8859-1";
}

其实现在到这儿,貌似问题已经迎刃而解了,但是我们还有一个非常关键的问题:

这个 enc 变量的值到底是什么呢?

2.3 enc 是什么

首先我们来看看:

@Override
public String getCharacterEncoding() {
    String result = coyoteRequest.getCharacterEncoding();
    if (result == null) {
        Context context = getContext();
        if (context != null) {
            result =  context.getRequestCharacterEncoding();
        }
    }
    return result;
}

从以上代码,我们可以看到,检查了两个地方的编码,一个是 coyoteRequest 对象,另外一个是 context 中。

(1)coyoteRequest 中发生了什么

public String getCharacterEncoding() {
    if (charEncoding != null) {
        return charEncoding;
    }
    charEncoding = getCharsetFromContentType(getContentType());
    return charEncoding;
}
public String getContentType() {
    contentType();
    if ((contentTypeMB == null) || contentTypeMB.isNull()) {
        return null;
    }
    return contentTypeMB.toString();
}
public MessageBytes contentType() {
    if (contentTypeMB == null) {
        contentTypeMB = headers.getValue("content-type");
    }
    return contentTypeMB;
}
private static String getCharsetFromContentType(String contentType) {
    if (contentType == null) {
        return (null);
    }
    int start = contentType.indexOf("charset=");
    if (start < 0) {
        return (null);
    }
    String encoding =contentType.substring(start + 8);
    int end = encoding.indexOf(';');
    if (end >= 0) {
        encoding = encoding.substring(0, end);
    }
    encoding = encoding.trim();
    if ((encoding.length() > 2) &&(encoding.startsWith("\""))
        && (encoding.endsWith("\""))) {
        encoding = encoding.substring(1, encoding.length() - 1);
    }
    return (encoding.trim());
}

从上面四段代码我们可以看到,它做的工作实际上是从 HTTP 头部的 content-type 中去检查有没有设置charset,如果有的话,则设置 enc 为该编码。

(2)context 中发生了什么

StandardContext
@Override
public String getRequestCharacterEncoding() {
    return requestEncoding;
}

context指的是当前网站的上下文容器,那么这个requestEncoding 属性又是什么时候设置的呢?

在 Servlet 4.0中,我们可以直接设置属性request-character-encoding的值,注意该属性仅在4.0中起作用。

<web-app xmlns="http://xmlns.jcp.org/xml/ns/javaee"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://xmlns.jcp.org/xml/ns/javaee     http://xmlns.jcp.org/xml/ns/javaee/web-app_4_0.xsd"
         version="4.0">
    <request-character-encoding>UTF-8</request-character-encoding>
</web-app>

2.4 编码设置流程总结

整个的流程我们已经分析完了,最后我们来总结一下,Tomcat在处理 request.getParameter()到底发生了什么。下面两张图将解释一切。

image.png

首先判断 enc 变量是否设置,如果未设置,则将其设置为默认值 ISO-8859-1。

enc 变量的设置流程如下:


image.png

第一步判断 request 对象是否设置了 charEncoding,相信这也是大家平时在解决乱码问题中最常见的一种方式,即:

 

request.setCharacterEncoding("utf-8");

 

如果未设置则进行第二步,检查 HTTP 头部的 content-type 属性是否设置了 charset 值。熟悉 HTTP 协议的同学相信都应该知道:

 

Content-type:text/html;charset=utf-8

 

如果未设置则进行第三步,检查 context 容器中是否设置了requestEncoding 属性。所谓 context 容器指的是web.xml 中是否设置了 request-character-encoding 属性,这个属性仅在 Servlet4.0中起作用。

 

2.5 乱码产生原因

上面分析了这么多,貌似我们还没有解释为什么会出现乱码?

 

我们知道 input.jsp 和 result.jsp 的页面编码都是 UTF-8,在默认情况下,处理环节中的编码为:ISO-8859-1,从上图我们发现一左一右的编码都是 UTF-8,而中间的是ISO-8859-1,因此前后编码不一致,自然会出现乱码。

 

如何解决乱码?

 

通过§2.4我们可以发现,解决乱码我们有两种途径:

 

第一种方式是让 input.jsp 和 result.jsp 全部设置为:ISO-8859-1编码,这样三个环节的编码都变成了ISO-8859-1。

 

第二种方式是通过各种途径让中间的处理环节的编码变为 UTF-8。

有哪些途径呢?这些途径就是§2.4中如何设置 enc 变量的几种方式。

 

3 总结

本文从 Tomcat 源码的角度深入分析了在FORM表单中如果直接提交中文,而默认不做任何编码的设置,那么在结果页中将会出现中文乱码。最后总结了中文乱码出现的本质原因在于一头一尾和中间环节的编码不一致导致的。并给出了解决中文乱码的几种途径。如果你从源码的角度了解了为什么会出现乱码,以后遇到任何乱码的问题,在你面前将不再是问题。

目录
相关文章
|
存储 应用服务中间件 容器
springmvc-页面跳转&表单标签&其他标签&tomcat控制台中文乱码问题
springmvc-页面跳转&表单标签&其他标签&tomcat控制台中文乱码问题
|
3天前
|
监控 Java 应用服务中间件
Spring Boot整合Tomcat底层源码分析
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置和起步依赖等特性,大大简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是其与Tomcat的整合。
19 1
|
2月前
|
监控 网络协议 应用服务中间件
【Tomcat源码分析】从零开始理解 HTTP 请求处理 (第一篇)
本文详细解析了Tomcat架构中复杂的`Connector`组件。作为客户端与服务器间沟通的桥梁,`Connector`负责接收请求、封装为`Request`和`Response`对象,并传递给`Container`处理。文章通过四个关键问题逐步剖析了`Connector`的工作原理,并深入探讨了其构造方法、`init()`与`start()`方法。通过分析`ProtocolHandler`、`Endpoint`等核心组件,揭示了`Connector`初始化及启动的全过程。本文适合希望深入了解Tomcat内部机制的读者。欢迎关注并点赞,持续更新中。如有问题,可搜索【码上遇见你】交流。
【Tomcat源码分析】从零开始理解 HTTP 请求处理 (第一篇)
|
2月前
|
人工智能 前端开发 Java
【Tomcat源码分析】启动过程深度解析 (二)
本文深入探讨了Tomcat启动Web应用的过程,重点解析了其加载ServletContextListener及Servlet的机制。文章从Bootstrap反射调用Catalina的start方法开始,逐步介绍了StandardServer、StandardService、StandardEngine、StandardHost、StandardContext和StandardWrapper的启动流程。每个组件通过Lifecycle接口协调启动,子容器逐层启动,直至整个服务器完全启动。此外,还详细分析了Pipeline及其Valve组件的作用,展示了Tomcat内部组件间的协作机制。
【Tomcat源码分析】启动过程深度解析 (二)
|
2月前
|
前端开发 Java 应用服务中间件
【Tomcat源码分析 】"深入探索:Tomcat 类加载机制揭秘"
本文详细介绍了Java类加载机制及其在Tomcat中的应用。首先回顾了Java默认的类加载器,包括启动类加载器、扩展类加载器和应用程序类加载器,并解释了双亲委派模型的工作原理及其重要性。接着,文章分析了Tomcat为何不能使用默认类加载机制,因为它需要解决多个应用程序共存时的类库版本冲突、资源共享、类库隔离及JSP文件热更新等问题。最后,详细展示了Tomcat独特的类加载器设计,包括Common、Catalina、Shared、WebApp和Jsp类加载器,确保了系统的稳定性和安全性。通过这种设计,Tomcat实现了不同应用程序间的类库隔离与共享,同时支持JSP文件的热插拔。
【Tomcat源码分析 】"深入探索:Tomcat 类加载机制揭秘"
|
2月前
|
设计模式 应用服务中间件 容器
【Tomcat源码分析】Pipeline 与 Valve 的秘密花园
本文深入剖析了Tomcat中的Pipeline和Valve组件。Valve作为请求处理链中的核心组件,通过接口定义了关键方法;ValveBase为其基类,提供了通用实现。Pipeline则作为Valve容器,通过首尾相连的Valve链完成业务处理。StandardPipeline实现了Pipeline接口,提供了详细的Valve管理逻辑。通过对代码的详细分析,揭示了模板方法模式和责任链模式的应用,展示了系统的扩展性和模块化设计。
【Tomcat源码分析】Pipeline 与 Valve 的秘密花园
|
2月前
|
设计模式 人工智能 安全
【Tomcat源码分析】生命周期机制 Lifecycle
Tomcat内部通过各种组件协同工作,构建了一个复杂的Web服务器架构。其中,`Lifecycle`机制作为核心,管理组件从创建到销毁的整个生命周期。本文详细解析了Lifecycle的工作原理及其方法,如初始化、启动、停止和销毁等关键步骤,并展示了LifecycleBase类如何通过状态机和模板模式实现这一过程。通过深入理解Lifecycle,我们可以更好地掌握组件生命周期管理,提升系统设计能力。欢迎关注【码上遇见你】获取更多信息,或搜索【AI贝塔】体验免费的Chat GPT。希望本章内容对你有所帮助。
|
3月前
|
网络协议 Java 应用服务中间件
Tomcat源码分析 (一)----- 手撕Java Web服务器需要准备哪些工作
本文探讨了后端开发中Web服务器的重要性,特别是Tomcat框架的地位与作用。通过解析Tomcat的内部机制,文章引导读者理解其复杂性,并提出了一种实践方式——手工构建简易Web服务器,以此加深对Web服务器运作原理的认识。文章还详细介绍了HTTP协议的工作流程,包括请求与响应的具体格式,并通过Socket编程在Java中的应用实例,展示了客户端与服务器间的数据交换过程。最后,通过一个简单的Java Web服务器实现案例,说明了如何处理HTTP请求及响应,强调虽然构建基本的Web服务器相对直接,但诸如Tomcat这样的成熟框架提供了更为丰富和必要的功能。
|
3月前
|
Java 应用服务中间件 Apache
使用IDEA修改Web项目访问路径,以及解决Apache Tomcat控制台中文乱码问题
本文介绍了在IntelliJ IDEA中修改Web项目访问路径的步骤,包括修改项目、模块、Artifacts的配置,编辑Tomcat服务器设置,以及解决Apache Tomcat控制台中文乱码问题的方法。
207 0
使用IDEA修改Web项目访问路径,以及解决Apache Tomcat控制台中文乱码问题