ByteBuffer源码分析

简介:

在进行数据传输的时候,往往需要使用到缓冲区,常用的缓冲区就是JDK NIO类库中提供的java.nio.Buffer,实现类如下:


在使用NIO编程时,最常用的是其中的ByteBuffer,本篇分析ByteBuffer内部的源码实现,顺序从父类Buffer入手,了解父类中基础API的实现,再到各个实现子类的实现。

Buffer

Buffer是存放一种特定的、原始的数据的容器。Buffer是一种特定原始类型元素的线性的有限序列集合,其核心的属性有capacity、limit、Position。

 


capacity:Buffer的容量,表示可以容纳的元素数量

limit:表示第一个不可以被读取或者写入的元素的位置

position:表示下一个被读取或者写入的位置

三者之间的关系如下:0<=position<=limit<=capacity

Buffer只有一个构造方法:


这个构造方式是protected的,也就是说只有在包内可以调用。构造方法中除了capacity、limit、position外还有一个mark参数,且校验了mark参数必须小于position。这个参数非常简单,用于标记position的当前位置,在进行读取写入之类的操作之后可以通过API重新将position重置到标记的位置,对应的API为:Buffer#mark()\Buffer#reset()

Buffer中一个比较重要的API是Buffer#flip


这个方法就是将limit设置到position位置,将position调整到0,将mark设置为-1

为什么需要有这么一个方法调整位置呢?

这个主要和Buffer只有一个position作为游标相关,读写都是基于position的,所以在写操作完成之后需要进行读操作时,需要将limit设置为position标记有写到哪儿了,而将position 重新移到0,这样就可以读取到所有的写入数据。假设如果有两个游标分别表示读取和写入的位置,是否就可以不用这个API了呢?

 

Buffer中的代码都非常简单,主要就是自身属性信息的设置和返回,像返回position、返回limit信息等,展开细看。


ByteBuffer

ByteBuffer是Buffer的一个子类,是字节缓冲区。ByteBuffer在Buffer之上定义了6中操作:

  1. 通过当前位置和指定位置的方式读取和写入byte

  2. 通过get(byte[])的方式将ByteBuffer中的数据读取到byte[]中

  3. 通过put(byte[])的方式将连续大量的byte数据写入缓冲区

  4. 通过当前位置和指定位置的方式将其他类型的数据写入缓冲区或从缓冲区读取数据转换成特定类型

  5. 提供将ByteBuffer转换成其他类型的Buffer视图的方法,例如ByteBuffer#asCharBuffer

  6. 提供compact、duplicate、slice来执行一些对ByteBuffer的操作

 

ByteBuffer的构造方法如下:


提供了两个构造方法,相对于Buffer增加了一个byte数组和一个offset。byte数组用于存储数据,offset表示ByteBuffer背后实际用于存储的byte数据的其实位置。即你可以使用一个byte数据,从它的任何一个下标开始存储数据,而不一定是0

当然,这两个方法都是protected的,也就是说实际我们“不能”通过这两个方法去构造我们需要的缓冲区。

 

那么当我们需要使用缓冲区的时候我们如何去构造一个呢?ByteBuffer提供了两个API:ByteBuffer#allocateDirect、ByteBuffer#allocate




ByteBuffer#allocateDirect分配一个DirectByteBuffer,即这个缓冲区是使用堆外内存的。


ByteBuffer#allocate在JVM堆上分配一块内存。

新分配的内存position都是0,limit为容量,初始内部填充的数据都为0

 

除了通过allocate去创建ByteBuffer,还有一种方式是通过wrap来包装一个byte数组,这样就可以使用ByteBuffer的API来对byte数据进行操作。


 


因为byte数据本身在堆内所以wrapByteBuffer也就是HeapByteBuffer

offset和length将被作为ByteBuffer初始的position和limit。



allocate和wrap都是创建了“新”的ByteBuffer,这里新的含义是他们背后都有自己独立的byte数组用于存储数据。还有一类API,他们也创建ByteBuffer,但是它只是个视图,拥有自己的position、limit等属性,但是存储的byte数组是共享的:

  • ByteBuffer#slice:创建一个的ByteBuffer,内容是当前ByteBuffer的一个子序列,共享一个byte数组;两个ByteBuffer的position、limit、mark是独立的;新ByteBuffer的起始位置是原ByteBuffer的position位置

  • ByteBuffer#duplicate:“复制”一个ByteBuffer,共享存储的byte数据,拥有独立的capacity、limit、position、mark属性;如果当前ByteBuffer是DirectByteBuffer,那么新Buffer也是DirectByteBuffer,如果当前是HeapByteBuffer,那么新分配的也是HeapByteBuffer

 

ByteBuffer提供另外一类API来将自己转换成另一个类型的缓冲区:

  • ByteBuffer#asXXXBuffer:比如asLongBuffer创建一个新的LongBuffer,底层的存储还是共享当前的byte数组,同时拥有自己的position、limit、mark属性,新Buffer的position为0,limit和capacity为原Buffer除8,因为一个long类型占用8个byte;其他asXXXBuffer方法都类似

 

ByteBuffer中还有一类API是提供基于当前位置或者指定位置来读写数据的:

  • byte getByte()

  • byte getByte(int index)

  • int getInt()

  • int getInt(int index)

  • ...

这两种API的差异是没有参数的API会从当前position开始读取数据,之后会修改position位置。而通过传入index,会从index开始读取数据,不会变更position信息。所以如果只是要读取数据,并不希望更改Buffer本身的信息(position),应该使用带有参数的方法。

 

ByteBuffer的内容只有这么多,接着看它的子类实现,主要是HeapByteBuffer和DirectByteBuffer。


HeapByteBuffer

HeapByteBuffer顾名思义就是JVM堆上的字节缓冲区,他用于缓存数据的byte数组就是直接在堆内申请的。默认的构造方法直接就是new一个byte数组作为数据存储的缓冲区。

 

HeapByteBuffer非常简单,就是实现了ByteBuffer定义的各种put和get方法,没有什么好分析的。


DirectByteBuffer

DirectByteBuffer翻译过来就是直接的字节缓冲区,它是使用直接内存的,即不从JVM的堆上分配内存。

首先看DirectByteBuffer的一个内部类:Deallocator从类名可以看出这个类应该是做“回收的”。


从代码看,Deallocator实现了Runnable接口,run方法内的实现就是通过unsafe释放内存。

结合Cleaner就能明白Cleaner是统一的接口,返回Cleaner来执行清楚操作,而真正的内存回收在Deallocator中执行。

接着看DirectByteBuffer的构造方法:


只有一个容量作为参数,而内存是直接通过unsafe分配的,可见内存是直接分配的,而不是在堆上申请的。另外这是一个受保护的方法,也就是说用户是不能直接调用的。

另外还有几个构造方法,可以直接通过内存地址来初始化,或者通过文件描述符来初始化(For memory-mapped buffers),通过已近存在的DirectBuffer来初始化。


这些方法都是提供给MMAP之类的使用的,一般用户都不会直接调用到。

剩下的方法,像是slice、duplicate,包括通过address返回内存地址都非常简单就不描述了。

 

另外DirectByteBuffer内部还有一个特殊的方法是asReadOnlyBuffer方法,返回了一个DirectByteBufferR对象。下面看一下DirectByteBufferR做了些什么。

 

简单从方法出发,大概就是返回只读的一个对象,不能做写入操作。



实际上也是非常简单,所有的put操作都抛出了异常。剩下get和slice等也类似,不再赘述。

本文转自 sshpp 51CTO博客,原文链接:http://blog.51cto.com/12902932/1949351,如需转载请自行联系原作者
相关文章
|
数据采集 搜索推荐 数据管理
基于Python爬虫的垂直搜索引擎设计与实现
基于Python爬虫的垂直搜索引擎设计与实现
519 1
|
缓存 网络协议 安全
计算机网络 TCP、RPC、GRPC、HTTP 对比
【1月更文挑战第1天】计算机网络 TCP、RPC、GRPC、HTTP 对比
|
3月前
|
缓存 Rust JavaScript
更快、更安全、更现代:用 uvx 替代 npx 执行临时 CLI 工具
`uvx` 是超快、安全、跨语言的 CLI 工具运行器(来自 Rust 编写的 `uv`),支持 Python/Node.js/Rust/Go 等生态,无需预装环境,自动隔离缓存,速度比 `npx` 快 3–5 倍,真正实现“Just run it”。
756 1
|
9月前
|
人工智能 自然语言处理 机器人
智能体平台哪家值得选?盘点国内外12家AI Agent平台技术特色
智能体平台正引领人机协作新潮流,将“智能”交给机器,让“平台”服务于人。2024年被Gartner定义为“AgenticAI元年”,预示未来企业交互将由智能体主导。面对百余平台,可从三条赛道入手:通用大模型、RPA升级派与垂直场景定制。不同需求对应不同方案,选对平台,才能让AI真正助力工作。
4043 1
|
9月前
|
缓存 Java API
Spring WebFlux 2025 实操指南详解高性能非阻塞 API 开发全流程核心技巧
本指南基于Spring WebFlux 2025最新技术栈,详解如何构建高性能非阻塞API。涵盖环境搭建、响应式数据访问、注解与函数式两种API开发模式、响应式客户端使用、测试方法及性能优化技巧,助你掌握Spring WebFlux全流程开发核心实践。
1506 0
|
人工智能 自然语言处理 搜索推荐
[AI Mem0 Platform] 快速开始,为您的AI应用注入长期记忆和个性化能力!
[AI Mem0 Platform] 快速开始,为您的AI应用注入长期记忆和个性化能力!
1529 0
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
11326 13
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
存储 缓存 网络协议
深入理解Linux网络——TCP连接的开销
在应用程序里,我们使用多少内存都是自己能掌握和控制的,但是纵观Linux整台服务器,除了应用程序以外,内核也会申请和管理大量的内存。 一、相关实际问题 内核是如何管理内存的