Http协议之Content-Length

简介:

前言

http协议是互联网中最重要的协议之一,虽然看上去很简单,但是实际中经常遇到问题,我们就已经遇到好几次了。有长连接相关的,有报文解析相关的。对http协议不能一知半解,必须透彻理解才行。所以就写了这个系列分享http协议的问题与经验。


问题

我们的手机App在做更新时会从服务器上下载的一些资源,一般都是一些小文件,更新的代码差不多是下面这样的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
static  void  update()  throws  IOException {
     URL url =  new  URL( "http://172.16.59.129:8000/update/test.so" );
     HttpURLConnection conn = (HttpURLConnection) url.openConnection();
     if (conn.getResponseCode() ==  200 ) {
         int  totalLength = conn.getContentLength();
     BufferedInputStream in =  new  BufferedInputStream(conn.getInputStream());
     byte [] buffer =  new  byte [ 512 ];
     int  readLength =  0 ;
     int  length =  0 ;
     while ((length=in.read(buffer)) != - 1 ) {
         readLength += length;
         //进度条
         System.out.println((( float )readLength) /(( float )(totalLength)));
     }
     }
}


比如上面的代码更新一个so文件,先通过content-length获取文件的总大小,然后读Stream,每读一段,就计算出当前读的总大小,除以content-length,用来显示进度条。


结果weblogic从10升级到12后,content-length一直返回-1,这样就不能显示进度条了,但是文件流还能正常读。把weblogic重启了,一开始还能返回content-length,一会又是-1了。



原因分析


Http协议的请求报文和回复报文都有header和body,body就是你要获取的资源,例如一个html页面,一个jpeg图片,而header是用来做某些约定的。例如客户端与服务端商定一些传输格式,客户端先获取头部,得知一些格式信息,然后才开始读取body。



客户端: Accept-Encoding:gzip (给我压缩一下,我用的是流量,先下载下来我再慢慢解压吧)

服务端1:Content-Encoding:null(没有Content-Encoding头。 我不给压缩,CPU没空,你爱要不要)

服务端2:Content-Encoding:gzip (给你节省流量,压缩一下)




客户端:Connection: keep-alive (大哥,咱好不容易建了个TCP连接,下次接着用)

服务端1: Connection: keep-alive (都不容易,接着用)

服务端2: Connection: close (谁跟你接着用,我们这个TCP是一次性的,下次再找我还得重新连)




http协议没有三次握手,一般客户端向服务端请求资源时,以服务端为准。还有一些header并没有协商的过程,而是服务端直接告诉客户端按什么来。例如上述的Content-Length,是服务端告诉客户端body的大小有多大。但是!服务端并不一定能准确的提前告诉你body有多大。服务端要先写header,再写body,如果要在header里把body大小写进去,就得提前知道body大小。如果这个body是动态生成的,服务端先生成完,再开始写header,这样需要很多额外的开销,所以header里不一定有content-length。


那客户端怎么知道body的大小呢?服务器有三种方式告诉你。


1. 服务器已经知道资源大小,通过content-length这个header告诉你。


Content-Length:1076(body的大小是1076B,你读取1076B就可以完成任务了)

Transfer-Encoding: null


2. 服务器没法提前知道资源的大小,或者不愿意花费资源提前计算资源大小,就会把http回复报文中加一个header叫Transfer-Encoding:chunked,就是分块传输的意思。每一块都使用固定的格式,前边是块的大小,后面是数据,然后最后一块大小是0。这样客户端解析的时候就需要注意去掉一些无用的字段。


Content-Length:null

Transfer-Encoding:chunked (接下来的body我要一块一块的传,每一块开始是这一块的大小,等我传到大小为0的块时,就没了)


3. 服务器不知道资源的大小,同时也不支持chunked的传输模式,那么就既没有content-length头,也没有transfer-encoding头,这种情况下必须使用短连接,以连接结束来标示数据传输结束,传输结束就能知道大小了。这时候服务器返回的header里Connection一定是close。


Content-Length:null

Transfer-Encoding:null

Connection:close(我不知道大小,我也用不了chunked,啥时候我关了tcp连接,就说明传输结束了)



实验


我通过nginx在虚拟机里做实验,默认nginx是支持chunked模式的,可以关掉。

使用的代码如下,可能会调整参数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
static  void  update()  throws  IOException {
     URL url =  new  URL( "http://172.16.59.129:8000/update/test.so" );
     HttpURLConnection conn = (HttpURLConnection) url.openConnection();
     //conn.setRequestProperty("Accept-Encoding", "gzip");
     //conn.setRequestProperty("Connection", "keep-alive");
     conn.connect();
     if (conn.getResponseCode() ==  200 ) {
         System.out.println(conn.getHeaderFields().keySet());
         System.out.println(conn.getHeaderField( "transfer-encoding" ));
         System.out.println(conn.getHeaderField( "Content-Length" ));
         System.out.println(conn.getHeaderField( "Content-Encoding" ));
         System.out.println(conn.getHeaderField( "Connection" ));
     }
}


1. nginx在开启chunked_transfer_encoding的时候


(1) 在reqeust header里不使用gzip,也就是不加accept-encoding:gzip


test.so文件大小

结果

100B

能正常返回content-length,没有transfer-encoding头

69M

能正常返回content-length,没有transfer-encoding头

3072M

能正常返回content-length,没有transfer-encoding头



可以发现nginx不管资源多大,如果客户端不接受gzip的压缩格式,就不会使用chunked模式,而且跟是否使用短连接没关系。


(2)在request header里加入gzip,accepting-encoding:gzip


test.so文件大小

结果

100B

没有content-length,transfer-encoding=trunked

69M

没有content-length,transfer-encoding=trunked

3072M

没有content-length,transfer-encoding=trunked


可以看到nginx在开启chunked_transfer_encoding,并且客户端接受gzip的时候,会使用chunked模式,nginx开启gzip后不会计算资源的大小,直接用chunked模式。



2.nginx关闭chunked_transfer_encoding


(1) 在reqeust header里不使用gzip,也就是不加accept-encoding:gzip

test.so文件大小

结果

100B

能正常返回content-length,没有transfer-encoding头

69M

能正常返回content-length,没有transfer-encoding头

3072M

能正常返回content-length,没有transfer-encoding头


因为能很容易的知道文件大小,所以nginx还是能返回content-length。



(2)在request header里加入gzip,accepting-encoding:gzip

test.so文件大小

结果

100B

没有content-length和transfer-encoding头,不论客户端connection为keep-alive还是close,服务端返回的connection头都是close

69M

没有content-length和transfer-encoding头,不论客户端connection为keep-alive还是close,服务端返回的connection头都是close

3072M

没有content-length和transfer-encoding头,不论客户端connection为keep-alive还是close,服务端返回的connection头都是close


这就是上面说的第三种情况,不知道大小,也不支持trunked,那就必须使用短连接来标示结束。



问题解决方案


咨询了中间件组的同事,以前也遇到类似的问题,因为升级了Weblogic导致客户端解析XML出错,因为使用了chunked模式,中间有一些格式化的字符,而客户端解析的代码并没有考虑chunked模式的解析,导致解析出错。

因为我们客户端必须用content-length展示进度,因此不能用chunked模式,Weblogic可以把chunked模式关闭。用下面的方法:

1
2
3
4
5
6
7
8
9
#!java weblogic.WLST 
connect( 'username’,' password ', ' t3: //localhost :7001')
edit()
startEdit()
cd ( "Servers/AdminServer/WebServer/AdminServer" )
cmo.setChunkedTransferDisabled( true )
save()
activate()
exit ()


改了之后,确实不返回chunked了,但是也没有content-length,因为Weblogic就是不提前获取文件大小,而是强制加了connection:close,也就是前边说的第三种,通过连接结束标识数据结束。由于生产上我们用了Apache,测试环境为了方便就直接用的Weblogic,所以只能在测试环境再加个Apache了。


总结

一个好的http客户端,必须充分实现协议,不然就可能出问题,浏览器对于服务端可能产生的各种情况都很好的做了处理,但是自己实现http协议的解析时一定得注意考虑多种情况。


本文转自nxlhero 51CTO博客,原文链接:http://blog.51cto.com/nxlhero/1868483,如需转载请自行联系原作者

相关文章
|
2月前
|
缓存 负载均衡 网络协议
HTTP 与 SOCKS5 代理协议:企业级选型指南与工程化实践
面向企业网络与数据团队的代理协议选型与治理指南,基于流量特征选择HTTP或SOCKS5协议,通过多协议网关统一出站,结合托管网络降低复杂度,实现稳定吞吐、可预测时延与合规落地。
|
5月前
|
缓存 监控 搜索推荐
301重定向实现原理全面解析:从HTTP协议到SEO最佳实践
301重定向是HTTP协议中的永久重定向状态码,用于告知客户端请求的资源已永久移至新URL。它在SEO中具有重要作用,能传递页面权重、更新索引并提升用户体验。本文详解其工作原理、服务器配置方法(如Apache、Nginx)、对搜索引擎的影响及最佳实践,帮助实现网站平稳迁移与优化。
619 68
|
4月前
HTTP协议中请求方式GET 与 POST 什么区别 ?
GET和POST的主要区别在于参数传递方式、安全性和应用场景。GET通过URL传递参数,长度受限且安全性较低,适合获取数据;而POST通过请求体传递参数,安全性更高,适合提交数据。
518 2
|
4月前
|
应用服务中间件
HTTP协议中常见的状态码
HTTP协议状态码分为1xx、2xx、3xx、4xx、5xx五类,常见状态码包括:101(请求已接受)、200(请求成功)、302(重定向)、400(请求错误)、401(未认证)、403(无权限)、404(资源不存在),以及500(服务器错误)、502(网关错误)、503(服务不可用)、504(网关超时)等。
148 0
|
4月前
|
网络协议 安全 网络安全
什么是HTTP协议
HTTP协议是超文本传输协议,基于TCP,规定了客户端与服务器端通信规则,但数据以明文传输,安全性低。HTTPS则通过SSL加密保障数据安全。两者默认端口不同,HTTP为80,HTTPS为443。HTTPS安全性更高,但消耗更多服务器资源。
180 0
|
4月前
|
数据采集 Web App开发 JSON
Python爬虫基本原理与HTTP协议详解:从入门到实践
本文介绍了Python爬虫的核心知识,涵盖HTTP协议基础、请求与响应流程、常用库(如requests、BeautifulSoup)、反爬应对策略及实战案例(如爬取豆瓣电影Top250),帮助读者系统掌握数据采集技能。
289 0
|
5月前
|
存储 网络协议 安全
HTTP 协议及会话跟踪机制详解
本文详解了 HTTP 协议的核心知识,包括其定义(超文本传输协议,基于 TCP,规定客户端与服务器通信规则)及与 HTTPS 的区别(安全性、端口、资源消耗)。 介绍了 GET 与 POST 请求的差异(参数限制、安全性、应用场景),以及 Restful 风格(通过 URL 定位资源,请求方式决定操作)。列举了常见 HTTP 状态码(如 200 成功、404 资源未找到),对比了转发与重定向的区别(服务器端一次请求 vs 客户端两次请求)。 还阐述了会话跟踪机制:Cookie 基于客户端存储,通过Set-Cookie和Cookie头实现,安全性较低;Session 基于服务端存储,依赖 C
540 1
|
4月前
|
缓存 网络协议 UED
深度解析HTTP协议从版本0.9至3.0的演进和特性。
总的来说,HTTP的演进是互联网技术不断发展和需求日益增长的结果。每一次重要更新都旨在优化性能,增进用户体验,适应新的应用场景,而且保证了向后兼容,让互联网的基础架构得以稳定发展。随着网络技术继续进步,我们可以预期HTTP协议在未来还会继续演化。
444 0
|
6月前
|
缓存
HTTP协议深度剖析:常见请求头信息讲解
这就是HTTP请求头背后的工作原理,希望通过比作“邮差”和“标签”,可以让你对这个繁琐技术更有感触,更得心应手。尽管这些信息可能很琐碎,但了解了它们的含义和工作方式,就等于揭开了HTTP协议神秘的面纱,掌控了网络交流的核心。你还等什么,赶快动手尝试一下吧!
204 17

热门文章

最新文章