java8读书笔记:探究java8流收集数据原理

简介: java8读书笔记:探究java8流收集数据原理

本文揭示如何学习一门新技术,从示例入手,重点阐述Stream#collect方法的实现原理,为更好的使用java8中流来收集数据。


我们在前面的文章中反复使用的场景:获取菜单中所有菜品的名称,返回一个集合,其代码如下:


1public static void test_toList(List<Dish> menu) {
2    List<String> names = menu.stream().map(Dish::getName)
3                        .collect(Collectors.toList()); // @1
4
5    for(String s : names) {
6        System.out.println(s);
7    }
8}

通过Stream.collect这个终端操作进行数据收集,至于如何收集,则由该方法的参数来决定(Collector),即行为参数化。


代码@1:collect(Collectors.toList()) 的意思就是返回List,这里涉及到两个关键,一个是Stream#collect方法,另外一个就是其参数Collectors.toList()。


接下来我们将以上述两个突破点来揭开如何使用java8的流来收集数据。

image.png

1ReferencePipeline#collect
 2
 3public final <R, A> R collect(Collector<? super P_OUT, A, R> collector) {   // @1
 4    A container;
 5    if (isParallel()
 6            && (collector.characteristics().contains(Collector.Characteristics.CONCURRENT))
 7            && (!isOrdered() || collector.characteristics().contains(Collector.Characteristics.UNORDERED))) {   // @2
 8        container = collector.supplier().get();                                                                 // @3
 9        BiConsumer<A, ? super P_OUT> accumulator = collector.accumulator();
10        forEach(u -> accumulator.accept(container, u));
11    }
12    else {                                                                                                     // @4
13        container = evaluate(ReduceOps.makeRef(collector));                                                                                              
14    }
15    return collector.characteristics().contains(Collector.Characteristics.IDENTITY_FINISH)                    // @5
16           ? (R) container
17           : collector.finisher().apply(container);
18}

代码@1:函数声明,该方法返回的结果类型为R,传入的行为参数接口为Collector。


代码@2:判断是否符合并行化累积与规约的条件。


  • 是否是并行流,例如上例中创建流的代码为menu.stream(),该方法的流是非并行化流,如果要支持并行化执行,需要满足的第一个条件就是需要使用menu.parallelStream()方法返回的流。
  • Collector(收集器,行为化参数)中收集器行为集合中是否包含Characteristics.CONCURRENT(并行执行),如果不包含该行为,则不支持并行执行。
  • 原始流是否有顺序 或 者 收集器的行为集合中明确包含Characteristics.UNORDERED(不要求顺序性)。
    上述三个条件必须同时满足,才能并行执行,否则串行执行。


代码@3:并行执行收集动作。


代码@4:串行执行收集动作。


代码@5:如果收集器收集行为集合中包含Characteristics.IDENTITY_FINISH,则直接返回原始值,否则使用Collector.finishier()方式对计算的值进行函数式计算。


通过上面的代码,我们应该对Characteristics枚举类型中的3个值不难得出如下类型:


  • CONCURRENT
    收集器行为,表示收集其中的累积函数是否支持并行执行。
  • Characteristics.UNORDERED
    收集器行为,表示整个收集期间,没有顺序要求。
  • Characteristics.IDENTITY_FINISH
    收集器行为,表示可以忽略Collector.finsher()定义的最终转换函数,直接返回累积之后的结果即可。

疑问?代码@3,这段代码不是很好理解,该怎么继续往下深入呢?


针对上面看不太懂的代码,我的处理办法是先转移思路,看一下Collector接口以及示例中Collectos.toList()返回的收集器是什么(重点关注返回的Collector中具体属性)。

image.png

1f14342a38c6566b665ddacb1b9667d0.png

收集器中的泛型参数说明如下:


  • T :累积器中一个操作数类型
  • A: 累积器中的初始值类型
  • R:返回值的类型,例如List< R >。


其属性一览如下:


  • Supplier< A > supplier()
    该函数式接口,大家应该都非常熟悉了,其函数声明如下:() -> T,通常用于构建对象,那这里是构建什么对象呢?这是下一个待解疑问。
  • BiConsumer accumulator()
    从名字命名来看,应该是返回累积器,(T,U)-> void。通常用于输入两个参数,对其进行处理,但返回void类型。
  • BinaryOperator< A > combiner()
    从名字命令来看,应该是组合器(请参考流计算函数reduce)。
  • Function finisher()
    最终函数,如果收集器行为包含IDENTITY_FINISH,则无需使用该函数对累积器产生的结果进行处理,否则使用该函数对累积器结果进行最后的处理。
  • Set< Characteristics > characteristics()
    累积器行为,在上文已做详细介绍。


其supplier函数到底是干什么的呢?对上面的方法都是基于名字来推测的(当然JDK代码非常优雅,根据名字去猜测,准确度还是很高的),但如何确认呢?这个时候我们还是结合Collectos.toList()方法返回的Collector来做进一步推断。

image.png

代码如下:

1public static <T> Collector<T, ?, List<T>> toList() {
2    return new CollectorImpl<>((Supplier<List<T>>) ArrayList::new, List::add,
3                               (left, right) -> { left.addAll(right); return left; },
4                               CH_ID);
5}
  • Collector的第一个参数Supplier,在这里为ArrayList::new,即调用supper.get()方法将返回一个List。
  • Collector的第二个参数accumulator:累积器,这里是List:add方法。
  • Collector的第三个参数combiner:组合器,这里就是(left, right) -> {left.addAll(right);return left;}
  • Collector的第四个函数characteristics:收集器的行为,这里为CH_IL,其选项为:IDENTITY_FINISH。


有了上面这些知识,我们再来看如下这段代码:

caee7020bcd1c6a31c23f11f636811fd.png

1、A container:累积器的初始值,如果使用Collectors.toList(),则这里会返回List的对象。

2、获取collector中定义的累积器。

3、遍历流,执行累积器动作,其中形式参数u,代表流中的一个个元素。


至于forEach方法,底层流的具体实现,本文就不再往深探究。

image.png

java8 使用流来收集数据的基本用法:


  • 使用流stream的collect对象进行数据收集,其参数为Collector函数是编程接口,具体的收集逻辑由该接口来指定。
  • 流的收集其具备基本的属性即作用:
  • Supplier< A > supplier()
    通过该函数式编程接口,返回累积器的初始值。
  • BiConsumer accumulator
    累积器函数。
  • BinaryOperator< A > combiner
    组合器,可以参考函数式编程接口的reduce方法。
  • Set< Characteristics > characteristics
    收集器行为。
  • java8中的Collectors提供了很多默认的收集器,例如Collectors.toList()方法,下一节我们会根据该类,详细介绍在java8中默认提供的收集器,指导我们如何使用java8中的流来收集数据。


下一节,将以Collectos类为入口,详细介绍java8中默认提供的收集器,已经如何使用。

目录
打赏
0
0
0
0
231
分享
相关文章
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
19 0
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。
【JAVA】生成accessToken原理
在Java中,生成accessToken用于身份验证和授权,确保合法用户访问受保护资源。流程包括:1. 身份验证(如用户名密码、OAuth 2.0);2. 生成唯一且安全的令牌;3. 设置令牌有效期并存储;4. 客户端传递令牌,服务器验证其有效性。常见场景为OAuth 2.0协议,涉及客户端注册、用户授权、获取授权码和换取accessToken。示例代码展示了使用Apache HttpClient库模拟OAuth 2.0获取accessToken的过程。
【JAVA】封装多线程原理
Java 中的多线程封装旨在简化使用、提高安全性和增强可维护性。通过抽象和隐藏底层细节,提供简洁接口。常见封装方式包括基于 Runnable 和 Callable 接口的任务封装,以及线程池的封装。Runnable 适用于无返回值任务,Callable 支持有返回值任务。线程池(如 ExecutorService)则用于管理和复用线程,减少性能开销。示例代码展示了如何实现这些封装,使多线程编程更加高效和安全。
|
2月前
|
使用Java和Spring Data构建数据访问层
本文介绍了如何使用 Java 和 Spring Data 构建数据访问层的完整过程。通过创建实体类、存储库接口、服务类和控制器类,实现了对数据库的基本操作。这种方法不仅简化了数据访问层的开发,还提高了代码的可维护性和可读性。通过合理使用 Spring Data 提供的功能,可以大幅提升开发效率。
68 21
【潜意识Java】深入理解MyBatis的Mapper层,以及让数据访问更高效的详细分析
深入理解MyBatis的Mapper层,以及让数据访问更高效的详细分析
102 1
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
63 7
|
2月前
|
java怎么统计每个项目下的每个类别的数据
通过本文,我们详细介绍了如何在Java中统计每个项目下的每个类别的数据,包括数据模型设计、数据存储和统计方法。通过定义 `Category`和 `Project`类,并使用 `ProjectManager`类进行管理,可以轻松实现项目和类别的数据统计。希望本文能够帮助您理解和实现类似的统计需求。
117 17
|
3月前
|
探索Java NIO:究竟在哪些领域能大显身手?揭秘原理、应用场景与官方示例代码
Java NIO(New IO)自Java SE 1.4引入,提供比传统IO更高效、灵活的操作,支持非阻塞IO和选择器特性,适用于高并发、高吞吐量场景。NIO的核心概念包括通道(Channel)、缓冲区(Buffer)和选择器(Selector),能实现多路复用和异步操作。其应用场景涵盖网络通信、文件操作、进程间通信及数据库操作等。NIO的优势在于提高并发性和性能,简化编程;但学习成本较高,且与传统IO存在不兼容性。尽管如此,NIO在构建高性能框架如Netty、Mina和Jetty中仍广泛应用。
65 3
|
3月前
|
Java CAS原理和应用场景大揭秘:你掌握了吗?
CAS(Compare and Swap)是一种乐观锁机制,通过硬件指令实现原子操作,确保多线程环境下对共享变量的安全访问。它避免了传统互斥锁的性能开销和线程阻塞问题。CAS操作包含三个步骤:获取期望值、比较当前值与期望值是否相等、若相等则更新为新值。CAS广泛应用于高并发场景,如数据库事务、分布式锁、无锁数据结构等,但需注意ABA问题。Java中常用`java.util.concurrent.atomic`包下的类支持CAS操作。
97 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等