JavaWeb技术内幕二:Java IO工作机制

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/81416419 这位大侠,这是我的公众号:程序员江湖。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/81416419

微信公众号【Java技术江湖】一位阿里 Java 工程师的技术小站。(关注公众号后回复”Java“即可领取 Java基础、进阶、项目和架构师等免费学习资料,更有数据库、分布式、微服务等热门技术学习视频,内容丰富,兼顾原理和实践,另外也将赠送作者原创的Java学习指南、Java程序员面试指南等干货资源)

IO问题是当今web应用所面临的主要问题之一,因为数据在网络中随处流动,在这个流动过程中都涉及IO问题,并且大部分应用的瓶颈都是IO瓶颈。

本章将从IO的角度出发,介绍IO类库的基本架构,磁盘IO的工作机制,网络IO的工作方式,以及socket和NIO等等。

Java的IO类库基本架构

IO问题无法回避,很容易成为性能瓶颈,因为IO设备的速度一般是很慢的。Java IO一直在做这方面的优化,1。4开始引入了NIO

数据格式:可以是字符流或者是字节流

基于字节操作的IO接口stream

基于字符操作的接口 writer和reader

传输方式:可以在网络中传输也可以和磁盘进行传输

基于磁盘操作的File

基于网络操作的socket

基于字节的IO操作接口

对于字节流来说,一般需要写入或读取字节数组,而这个写入或读取位置可能是文件,也可能是网络

基于字符的IO操作接口

实际上磁盘和网络传输都要转化成二进制字节流,之以所提供字符流接口是因为方便用户直接写入字符。

当然这其中还涉及到编码和解码的问题。

字符和字节的转化接口

为了实现字符到字节的相互转化,java提供了inputstreamreader和outputstreamreader两个类来实现转化,这个类通过装饰者
模式封装两个实例,从而完成转化操作。

但是转换过程中注意指定编码,要不然就乱码了,装饰者模式还支持把IO流包装成支持缓存,支持管道等特性IO流。

磁盘IO工作机制

几种访问磁盘的方式

1 我们知道,读写文件的IO操作需要执行操作系统提供的接口,因为磁盘是操作系统管理的,应用程序只能通过系统调用来工作。

写和读对应write和read系统调用。

2 由于操作系统执行系统调用可能会有上下文切换的问题,需要到内核空间运行,也就涉及到内核空间和用户空间的数据复制问题。

为什么要这样呢,因为操作系统为了保护自身安全,要把用户程序和内核空间分开,虽然保证安全性,但是却会降低速度。

3 由于IO本身非常耗时,所以为了弥合磁盘和内存的速度差,一般会使用缓存机制缓存一部分的磁盘文件。这样就可以避免每次IO都要经过磁盘。

标准访问文件方式(需要两个空间的数据复制)

标准IO就是使用read接口时,先访问内核缓存,未命中就访问磁盘,然后进行缓存。

使用write接口时,write接口用户空间复制到内核空间的缓存中,此时用户程序就会返回,至于什么时候把缓存内容写入磁盘则由操作系统来决定,除非我们显示地调用了sync命令进行同步调用。

用户空间缓存-->内核空间缓存-->物理磁盘

直接IO(不需要经过内核空间)

直接IO就是应用程序不需要经过内核空间,直接访问磁盘。这种方式的典型就是数据库,数据库知道该缓存哪些数据,可以做预加载,提高访问速度,这些处理对用户程序是透明的。

如果是由操作系统来缓存,是很难做到的。

但是这也有一些问题,就是缓存不命中时就会直接从磁盘加载,速度很慢,一般结合直接IO和异步IO来做,会比较高效。

同步IO

同步指的是读取和写入是同步的,只有数据读写成功后才会返回结果,需要程序等待,性能比较差。

异步IO

异步IO可以先执行其他任务,而不是阻塞等待,请求数据返回后才会继续执行下面的操作。

内存映射

内存映射指的是操作系统将某一块内存和磁盘中的文件关联起来,当要访问内存的一段数据时,转换为访问文件的某一段数据。

这种操作也可以避免数据从内核空间和用户空间间的复制

Java访问磁盘文件

Java的file用于定位资源,他不一定是实际文件,也可以是一个目录,甚至一个不存在的对象。

只有在真正读取file的时候才会检查它存不存在。

在打开文件的输入流inputstream时,会创建一个filedescription对象,代表Linux中对应的fd。Linux通过fd与磁盘进行交互。

在这里说下fd和inode的区别

inode 或i节点是指对文件的索引。如一个系统,所有文件是放在磁盘或flash上,就要编个目录来说明每个文件在什么地方,有什么属性,及大小等。就像书本的目录一样,便于查找和管理。这目录是操作系统需要的,用来找文件或叫管理文件。许多操作系统都用到这个概念,如linux, 某些嵌入式文件系统等。当然,对某个系统来说,有许多i节点。所以对i节点本身也是要进行管理的。

在linux中,内核通过inode来找到每个文件,但一个文件可以被许多用户同时打开或一个用户同时打开多次。这就有一个问题,如何管理文件的当前位移量,因为可能每个用户打开文件后进行的操作都不一样,这样文件位移量也不同,当然还有其他的一些问题。所以linux又搞了一个文件描述符(file descriptor)这个东西,来分别为每一个用户服务。每个用户每次打开一个文件,就产生一个文件描述符,多次打开就产生多个文件描述符,一一对应,不管是同一个用户,还是多个用户。该文件描述符就记录了当前打开的文件的偏移量等数据。所以一个i节点可以有0个或多个文件描述符。多个文件描述符可以对应一个i节点。

Java序列化技术

Java序列化就是把一个对象转换成一串二进制表示的字节数组,通过保存或转移这些数据来持久化。

序列化对象必须实现serializable接口。但是和class文件可以直接通过defineclass加载类不同,反序列化时字节码必须依据模板类进行反序列化。

所以我们应该看看序列化后的对象到底长啥样

实际上,序列化以后的数据主要包括这些内容(只列举重要的)

1 序列化协议

2 版本

3 class名字

4 域类型,弗雷信息,实际属性值等等。

网络IO工作机制

网络IO必须通过物理链路和通信协议进行连接。

TCP状态转化

影响网络传输的因素

1 网络带宽,一般受物理链路影响,比如光纤比双绞线快得多

2 传输距离,传输距离主要影响传输延时

3 TCP拥塞控制,为了实现拥塞控制,网络传输速度会受整体网络环境影响

Java socket工作机制

socket就是操作系统对TCP/IP协议栈的封装,以便用户程序进行为了编程。

建立通信链路

1 客户端建立socket,自动分配端口号,然后绑定远端地址和端口号。

2 执行connect方法,完成三次握手的前两次

执行accpet方法完成三次握手的第三次

3 服务端建立serversocket需要绑定端口号进行监听,调用accpet方法进入阻塞等待请求到了,连接到来时为其建立一个新的数据结构,此时这个数据结构还只是未完成的结构。

只有在它与客户端完成三次握手后socket新实例才被成功创建。

每个已完成三次握手的socket都被操作系统管理,对应着不同的本地主机ip+端口:远程主机+端口

数据传输

socket通过inputstream和outputstream传输数据,事实上,操作系统会为它们分配一定大小的缓冲区,数据的读取和写入都是通过这个缓冲区来完成的(NIO出现后可以让用户程序管理缓冲区)

这个缓冲区也被称作RecvQ队列和SendQ队列。当队列为空或满时,执行读和写操作会阻塞。

如果读和写同时发生,可能会造成死锁。

NIO的工作方式

BIO的挑战

1 BIO即阻塞IO,无论是磁盘还是网络IO,都会发生阻塞等待,线程会阻塞,等待IO响应时间很长,并且导致上下文切换,开销很大。

2 对于服务端,高并发访问时使用BIO显然不能被接受。如果一个线程对应一个客户端,可以避免影响其他线程工作,同时使用线程池降低线程创建开销。

3 但是有些场景仍然不能解决,比如需要大量HTTP长连接,比如几百万,这些连接不怎么需要IO操作,但是却需要保持连接,如果开启200w的线程,显然是不可能的。

另外,多线程读写共享数据时需要同步,非常麻烦。

而且多线程优先级不好控制

NIO的工作机制

Channel,buffer,selector,key。

Channel指的是IO访问对象,可以是File,也可以是socket
,通过channel再派生出socket

selector是选择器,基于底层的IO多路复用器实现。

buffer是缓存,用户可以自己控制IO的读缓存和写缓存。

key就是selector上注册的键,分别代表不同状态的IO,比如就绪,已连接,可读,可写。

通信过程:

1 selector工厂创建一个selector,创建一个channel,绑定到一个serversocket上。

2 设置serversocket为非阻塞

3 调用seletor的selectedkeys获得所有事件,判断是否就绪事件。

4 通过channel获取buffer,完成IO读写操作。

上述过程,一个线程负责监听就绪时间,一般是阻塞的while循环,一个线程负责处理就绪的IO请求。

由于这个特点,只需少量线程就可以完成大量的连接请求。

buffer的工作方式

buffer就是一个缓冲区,可以分配长度。
使用position,limit,capacity标识容量情况。
使用flip可以在读缓存和写缓存之间转换。

1 当然,使用buffer需要进行用户空间和内核空间的数据复制,所以比较耗时,buffer提供另一种方式directbuffer就是和底层存储空间直接关联的缓冲区,他通过jni直接操作非堆内存。

2 由于这部分内存直接分配在内核空间,所以不需要额外一次复制,所以执行的效率要更高。

3 jvm释放这部分非堆内存一般需要调用system.gc来显示释放,可能引起内存泄漏。

NIO的数据访问方式

NIO提供了比传统文件访问方式更好的方法,NIO有两个优化方法:一个是Filechannel.transferTo,一个是filechannel.map

1 filechannel.transferTo
该操作直接在内核空间移动数据,当然是用于写操作,不用于读操作。

2 filechannel.map将文件按照一定大小块映射成内存区域,实现了mmap。

IO调优

磁盘IO优化

性能检测

1 我们可以压测应用,看看IO的wait指标是否正常。
Linux下可以通过iostat查看IO状态

2 IOPS是IO性能的重要参数,要看看最低的IOPS是多少。

IOPS (Input/Output Operations Per Second),即每秒进行读写(I/O)操作的次数,多用于数据库等场合,衡量随机访问的性能。存储端的IOPS性能和主机端的IO是不同的,IOPS是指存储每秒可接受多少次主机发出的访问,主机的一次IO需要多次访问存储才可以完成。例如,主机写入一个最小的数据块,也要经过“发送写入请求、写入数据、收到写入确认”等三个步骤,也就是3个存储端访问。

3 RAID技术可以提升磁盘IO性能。每种RAID方案对IO性能提升不同,可以用raid因子来表示。

提升IO性能

1 增加缓存

2 优化磁盘管理系统,寻址策略,非常底层。。

3 设计索引,异步和非阻塞加快磁盘访问。

4 使用raid。

1 raid0平均写到多个磁盘阵列,读写都是并行的,速度翻倍

2 raid1实现了数据备份

3 raid5是0和1的折中,平均读写,但是留一盘用来备份和恢复。

4 raid0+1

TCP网络参数优化

1 端口号有65536个。

2 可用端口号不足时遇到大量并发请求时会成为瓶颈,大量请求等待建立连接。

如果出现大量time wait,可以设置timewait时间为更小值。

3 通过ab压测,发现time wait的连接很多,降低timeout时延,则timewait数量明显减少。

4 除了增大端口范围外,还可以让TCP连接复用等方式来提高性能。

网络IO优化

1 减少网络交互次数

可以合并多个请求为一个请求

2 减少网络传输数据量大小

压缩数据,尽量通过协议头来获取信息,设置使用代理时只判断协议头即可完成请求或者负载均衡。

3 尽量减少编码

直接使用字节流传输,减少了一次解码过程

4 IO方式

1 同步和异步

同步就是前后任务依次完成,互相依赖,异步则不依赖其他任务。

2 阻塞和非阻塞

阻塞和非阻塞主要和cpu有关,阻塞会切换cpu上下文,非阻塞则不会。

设计模式

适配器

IO接口在转换inputstream到reader时使用inputstreamreader作为适配器。

装饰者

inputstream是具体组件,filterinputstream和bufferedinputstream是装饰者

区别

适配器是将一个接口转变成另一个接口,主要实现了复用目的。而装饰者则是要保持原有接口,但是要增强其接口功能。

相关文章
|
6月前
|
JavaScript Java 大数据
基于JavaWeb的销售管理系统设计系统
本系统基于Java、MySQL、Spring Boot与Vue.js技术,构建高效、可扩展的销售管理平台,实现客户、订单、数据可视化等全流程自动化管理,提升企业运营效率与决策能力。
|
10月前
|
设计模式 人工智能 安全
AQS:Java 中悲观锁的底层实现机制
AQS(AbstractQueuedSynchronizer)是Java并发包中实现同步组件的基础工具,支持锁(如ReentrantLock、ReadWriteLock)和线程同步工具类(如CountDownLatch、Semaphore)等。Doug Lea设计AQS旨在抽象基础同步操作,简化同步组件构建。 使用AQS需实现`tryAcquire(int arg)`和`tryRelease(int arg)`方法以获取和释放资源,共享模式还需实现`tryAcquireShared(int arg)`和`tryReleaseShared(int arg)`。
481 32
AQS:Java 中悲观锁的底层实现机制
|
8月前
|
监控 Java API
现代 Java IO 高性能实践从原理到落地的高效实现路径与实战指南
本文深入解析现代Java高性能IO实践,涵盖异步非阻塞IO、操作系统优化、大文件处理、响应式网络编程与数据库访问,结合Netty、Reactor等技术落地高并发应用,助力构建高效可扩展的IO系统。
235 0
|
10月前
|
人工智能 Java 关系型数据库
Java——SPI机制详解
SPI(Service Provider Interface)是JDK内置的服务提供发现机制,主要用于框架扩展和组件替换。通过在`META-INF/services/`目录下定义接口实现类文件,Java程序可利用`ServiceLoader`动态加载服务实现。SPI核心思想是解耦,允许不同厂商为同一接口提供多种实现,如`java.sql.Driver`的MySQL与PostgreSQL实现。然而,SPI存在缺陷:需遍历所有实现并实例化,可能造成资源浪费;获取实现类方式不够灵活;多线程使用时存在安全问题。尽管如此,SPI仍是Java生态系统中实现插件化和模块化设计的重要工具。
448 0
|
5月前
|
Java Unix Go
【Java】(8)Stream流、文件File相关操作,IO的含义与运用
Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。!但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。
244 1
|
7月前
|
Java 测试技术 API
Java IO流(二):文件操作与NIO入门
本文详解Java NIO与传统IO的区别与优势,涵盖Path、Files类、Channel、Buffer、Selector等核心概念,深入讲解文件操作、目录遍历、NIO实战及性能优化技巧,适合处理大文件与高并发场景,助力高效IO编程与面试准备。
|
8月前
|
存储 Java Linux
操作系统层面视角下 Java IO 的演进路径及核心技术变革解析
本文从操作系统层面深入解析Java IO的演进历程,涵盖BIO、NIO、多路复用器及Netty等核心技术。分析各阶段IO模型的原理、优缺点及系统调用机制,探讨Java如何通过底层优化提升并发性能与数据处理效率,全面呈现IO技术的变革路径与发展趋势。
171 2
|
7月前
|
SQL Java 数据库连接
Java IO流(一):字节流与字符流基础
本文全面解析Java IO流,涵盖字节流、字符流及其使用场景,帮助开发者理解IO流分类与用途,掌握文件读写、编码转换、异常处理等核心技术,通过实战案例提升IO编程能力。
|
8月前
|
人工智能 前端开发 安全
Java开发不可不知的秘密:类加载器实现机制
类加载器是Java中负责动态加载类到JVM的组件,理解其工作原理对开发复杂应用至关重要。本文详解类加载过程、双亲委派模型及常见类加载器,并介绍自定义类加载器的实现与应用场景。
329 4
|
8月前
|
SQL 前端开发 Java
JavaWeb 学习日记案例详解及 javaweb 完整项目案例实战指南
本文介绍了一个基于Spring Boot的JavaWeb企业员工管理系统完整案例,涵盖部门管理、员工管理、登录、异常处理、事务管理及AOP等核心功能实现,结合CSDN相关技术文章,提供详细技术方案与应用实例,适合JavaWeb开发者学习与参考。
496 0