Web上传文件的原理及实现

简介: 本文为原创,如需转载,请注明作者和出处,谢谢! 现在有很多Web程序都有上传功能,实现上传功能的组件或框架也很多,如基于java的Commons FileUpload、还有Struts1.x和Struts2中带的上传文件功能(实际上,Struts2在底层也使用了Commons FileUpload)。
本文为原创,如需转载,请注明作者和出处,谢谢!

现在有很多Web程序都有上传功能,实现上传功能的组件或框架也很多,如基于javaCommons FileUpload、还有Struts1.xStruts2中带的上传文件功能(实际上,Struts2在底层也使用了Commons FileUpload)。在asp.net中也有相应的上传文件的控件。

虽然现在有很多上传组件可以利用,但是了解Web上传文件的原理,对于处理突然出现的问题会有很大的帮助,下面就来讲一下通过浏览器上传文件的基本原理。在了解了原理之后,就可以非常容易地自制满足自身需要的上传组件了。

众所周知,在客户端代码中需要使用 <input type='file' name='file' /> 来选择要上传的文件,并上传,代码如上:

< html >
    
< head >
        
< title > upload </ title >
        
< meta  http-equiv ="description"  content ="this is my page" >
        
< meta  http-equiv ="content-type"  content ="text/html; charset=GB18030" >
    
</ head >

    
< body >
        
< form  action ="servlet/UploadFile"  method ="post"
            enctype
="multipart/form-data" >
            
< input  type ="file"  name ="file1"  id ="file1"   />
            
< input  type ="file"  name ="file2"  id ="file2"   />
            
< input  type ="submit"  value ="上传"   />
        
</ form >
    
</ body >
</ html >

从上面的代码可以看出,有两个文件选择框(file1file2),在上传文件时,<form>标签必须加上enctype="multipart/form-data",否则浏览器无法将文件内容上传到服务端。下面我们来做个实验。在ServletdoPost方法中编写如下的代码,如果想使用asp.net或其他的语言或技术,也可以很容易实现相应的功能。

    public   void  doPost(HttpServletRequest request, HttpServletResponse response)
            
throws  ServletException, IOException
    {
        java.io.InputStream is 
=  request.getInputStream();
        java.io.FileOutputStream fos 
=   new  java.io.FileOutputStream( " d://out.txt " );
        
        
byte [] buffer  =   new   byte [ 8192 ];
        
int  count  =   0 ;
        
while ((count  =  is.read(buffer))  > 0 )
        {
            fos.write(buffer, 
0 , count);
        }        
        fos.close();
    }

    上面的功能非常简单,只是通过 request 获得一个 InputStream 对象,并通过这个对象从客户端获得发送过来的字节流(注意,一定要用字节流,因为,上传的文件可能是二进制文件,如图象文件,因此,使用字节流会更通用)。并将这些字节流保存在 D 盘的 out.txt 文件中。然后我们打开 out.txt ,文件的内容如图 1 所示:



                                                                                          图1

    由于out.txt是使用文本形式打开的,并且file1上传的是a.jpg(一个图象文件),因此,显示的是一些乱码。我们可以不用管它们。只需要看看这些内容的头部。我们很快就可以找到规律。每一个文件内容的头部都由“-----------------------------30514443229777”分隔,然后是这个文件的属性,如下:

Content-Disposition: form-data; name="file1"; filename="a.jpg"

Content-Type: image/jpeg

其中包含了文件选择框的name属性,还有上传的文件名(filename字段),要注意的,firefox在上传时,这个filename属性值只是文件名,如果使用IE,就是带路径的文件名,如D:"a.jpg

接下来的规则就和HTTP的头一样了,以一个空行("r"n)分隔。后面就是文件的具体内容。现在最关键的文件的结尾,从图1可以看出,文件的结尾也是“-----------------------------30514443229777”,因此,可以断定,第一个上传的文件(包括文件头)是夹在两个“-----------------------------30514443229777”之间的。而“-----------------------------30514443229777”就是multipart/form-data协议的分隔符。但这里还有一个最关键的问题。这个分隔符每次上传都不一样,服务端是如何知道每次上传的这个分隔符的呢?

实际上,这个分隔符是通过HTTP请求头的Content-Type字段获得,可通过下面的代码输出这个字段值:

System.out.println(request.getHeader("Content-type"));

输出的内容如下:

multipart/form-data; boundary=---------------------------106712230227687

只要在服务端获得boundary后面的值即可。经过测试,Content-Type中的分隔符号中的“-”比实际上传的“-”少两个,不知是怎么回事。不过这没关系,我们可以认为每一个文件块是以""r"n—“结尾的,或是直接将从boundary获得的分隔符加两个“”。而最后结尾的分隔符是“---------------------------106712230227687—”,后面多了两个“”。

综合上述,也就是说,一个文件块是以“---------------------------106712230227687”开头,以“”结尾,从图2可以看出这一切。



                                  图2

    至于剩下的工作,就是按着上面的规则来分析这些字符流了。分析的方法很多。在这里就不详述了。

multipart/form-data规 范原文:http://www.ietf.org/rfc/rfc2388.txt

Form-based File Upload in HTML:http://www.ietf.org/rfc/rfc1867.txt




国内最棒的Google Android技术社区(eoeandroid),欢迎访问!

《银河系列原创教程》发布

《Java Web开发速学宝典》出版,欢迎定购

目录
相关文章
|
网络协议 网络架构 Windows
【Windows】MCSM面板搭建Mycraft服务器,实现公网远程联机
【Windows】MCSM面板搭建Mycraft服务器,实现公网远程联机
649 0
|
编解码 安全
租个5000人玩的游戏服务器一年多少钱?好用的游戏服务器推荐
​游戏服务器最重要的就是安全稳定,特别是需要防攻击,所以租用带防御的高防服务器是很有必要的。那么可以供5000人玩的游戏服务器一年大概多少钱呢?
4993 0
租个5000人玩的游戏服务器一年多少钱?好用的游戏服务器推荐
|
敏捷开发 监控 数据可视化
哪些任务管理工具能提升团队协作效率?2024年最佳进度管理工具推荐
随着团队合作和项目管理的数字化转型,选择合适的任务进度管理工具成为提高团队效率的关键。本文推荐5款适合团队使用、功能各异的任务管理工具:板栗看板、Airtable、ZenHub、Proofhub 和 Wrike,旨在帮助团队根据具体需求挑选最合适的软件。这些工具不仅支持任务的高效管理和追踪,还促进了团队成员间的沟通与协作,尤其适用于跨地区协作、远程办公及项目繁杂的环境。
 哪些任务管理工具能提升团队协作效率?2024年最佳进度管理工具推荐
|
Shell 网络安全 Go
|
Java C++ 开发者
【技术贴】if-else VS switch:谁才是Java条件判断的王者?
【6月更文挑战第14天】本文探讨了Java中if-else与switch语句的选择问题。if-else基于布尔逻辑,适合处理复杂逻辑,而switch在处理多分支特别是枚举类型时更高效。if-else在条件动态变化或复杂逻辑时更合适,switch则因其跳转表机制在固定选项中表现优秀。性能上,switch在大量选项时占优,但现代JVM优化后两者差异不大。选择时应考虑场景、可读性和维护性,灵活运用。理解两者特点,才能写出优雅高效的代码。
937 0
|
9月前
|
存储 缓存 前端开发
阿里云服务器2核4G5M带宽199元怎么样?简单测评与选购指南参考
阿里云服务器2核4G5M带宽199元怎么样?本文将从配置、云服务器性能、使用场景等方面来简单测评一下这款云服务器,以供参考。
|
人工智能 算法 自动驾驶
人工智能的伦理挑战与社会责任
【8月更文挑战第10天】随着人工智能技术的飞速发展,其在社会各领域的应用日益广泛。然而,AI技术在带来便利的同时,也引发了一系列伦理问题和社会责任问题。本文将探讨AI技术可能带来的伦理挑战,以及作为技术开发者、应用者和监管者的我们应如何承担起相应的社会责任,确保AI技术的健康发展,服务于人类的福祉。
|
存储 数据管理 API
docker中删除数据卷
【10月更文挑战第11天】
534 4
|
安全 Java 数据库连接
Spring Boot 优雅关机时异步线程安全优化
Spring Boot 优雅关机时异步线程安全优化
466 1
|
机器学习/深度学习 人工智能 监控
AI制造流程优化
AI在制造流程优化中涉及数据收集与处理、特征工程、模型选择与训练、系统集成及员工培训。通过这些步骤,AI能改善生产线效率,实现自动化和智能化。数字孪生技术的运用允许在虚拟环境中测试和改进制造过程,提高效率和质量。企业需综合考虑技术、数据和人员,以实现制造的高效智能化。
575 3