手撸一款简单高效的线程池(二)

简介: 大家好,我是不会写代码的纯序员——Chunel Feng[1]。这篇文章是线程池优化系列连载的第二篇。主要跟大家介绍几种线程池优化思路,包括:local-thread 机制、lock-free 机制、work-stealing 机制。

在上一章中,我们给大家简单介绍了传统 C++的线程池实现方案中存在的一些问题,并且立下 flag 要做一款简单好用、高性能的线程池。接下来,我们就用几章的内容,把曾经吹过的牛 B,编程实现


大家好,我是不会写代码的纯序员——Chunel Feng[1]。这篇文章是线程池优化系列连载的第二篇。主要跟大家介绍几种线程池优化思路,包括:local-thread 机制、lock-free 机制、work-stealing 机制


还是要提前说明一下,多线程并发的知识博大精深,且涉及内容极其广泛。以下介绍的内容也仅局限在我个人的认知范围。如果大家有什么意见和建议,请多多指教。


0.png


首先,还是照例,先上源码链接:CGraph 源码链接[2] 其中,线程池的实现在 /src/UtilsCtrl/ThreadPool/ 文件夹中。


1.png


local-thread 机制


上一章,我们分析传统的线程池的一个瓶颈,在于多个 thread 去【争抢】pool 中任务队列中的第一个 task,这里是有锁操作,会有一定的性能开销。而引入 local-thread 技术就是为了在一定程度上减少这种开销。


C++11 版本开始,已经引入了thread_local关键字,但是很少见有人用。具体到做工程的童鞋,其实更喜欢的方式,应该是自己封装一个属于自己的 thread 类,那这里的东东不就都是local了么。


为此,CGraph 中封装了 UThreadPrimary 类,其中就包含了一个 UWorkStealingQueue 类的对象。这是一个类似 std::deque 结构的双向队列,可以从头部弹出节点,也可以从尾部弹出节点。


2.png


把原先 pool 中 queue 中的任务,放到不同的 n 个线程的私有的 n 个 queue(UWorkStealingQueue 类型)中,线程执行任务的时候就不需要再从 pool 的 queue 中获取去【争抢】了。从而是不是就达到了“增加扇出”的效果。


再往前想一步,最初的线程池模型中,外部写入的时候也是写入 pool 中的 queue,会存在一个【争抢】写入,也会在 queue 被读的时候,无法抢到锁。那写入 thread 中的 queue 的话,是不是也一定程度上提升了“增加扇入”的效果。毕竟,跟你竞争的只有本线程的读操作了啊。


local-thread 还有一点内容,就是本线程执行过程中,产生的 task(尽可能的)放在本线程的 queue 中执行。这样也是local的一种体现,而且也会在一定程度上增加线程的亲和性——这个跟线程内部资源的缓存有关。


lock-free 机制


lock-free 是无锁编程的技术,也叫做 lockless 技术。lock-free 也分好几种维度,比如:基于 atomic 的、基于内部封装 mutex 的、基于 cas 机制的。当然可能还有一些我不知道的,欢迎补充。


无锁,乍一听像是并发编程的时候不用上锁了。但在你不加锁的时候,别人在暗中默默的帮你加了锁。举个例子,C++11 中的std::atomic<int>类型,就是一种无锁类型。但其实在这种类型的变量,做多线程并发的i++的时候,在变量内部维护了一个 spin-lock(自旋锁,确保当前线程不被切换)和一个 cas(乐观锁,确保最终数值正确)。说是无锁,实际上看进去之后会发现,还不止有一个锁——只是外部程序不感知罢了。


3.jpg


CGraph 中的 UAtomicQueue 类,采用的也是类似的技术。不过并不是 cas,而是内部加入 std::mutex 和 std::condition_variable 来进行控制。还有,刚才聊到的 UWorkStealingQueue 类,也属于无锁类型——仅是外部看上去无锁罢了。在内部封装的过程中,我们也在一些特定的情况下使用了 yield()方法让出线程的执行权限,实测效果是有明显提升的。


这里后期可以考虑尝试使用 cas 的方式实现一下,理论上 cas 是比直接内部上锁快一些的。


work-stealing 机制


任务偷窃机制——这种技术常被用于线程之间相互 backup 的场景中,Java 版本的线程池中也有这项技术。


通俗解释一下,比如当前线程池里有 3 个线程,分别为 thd1,thd2 和 thd3 吧。每个线程中的 local queue 中都包含了 100 个任务——已经很负载均衡了吧。我们设想极端一些哈,比如 thd3 的 task 都是sleep 1s,而 thd1 和 thd2 中的 task 都是sleep 1ms。如果每个 thd 仅执行自己 local queue 中的内容,那这个任务总体的耗时应该是max(100ms, 100ms, 100s) = 100s


但是在所有任务开始执行的 100ms 后,thd1 和 thd2 就已经无工可做了(像极了 35 岁后的纯序员本员),但是 thd3 还是在苦苦支撑着,一直到 100s 结束。这显然是不太合理的。


一种比较合理的做法是,在 thd1 和 thd2 在执行 local 任务结束之后,可以去 thd3 的队列中去 stealing 一些任务(就是sleep 1s的那种)执行——这就是所谓的 work-stealing 机制。这种机制的优势也是很明显的,针对刚才描述的情况,原先 100s 才能执行完的任务,整体耗时瞬间就被降低到 30+s 左右。


5.png


需要说明的是,work-stealing 机制并不是一个万金油。比如,上面提到的头部/尾部弹出,明显会打乱任务执行顺序,所以这种机制更适合那种“可执行任务一把梭哈”的情况——对,我指的就是CGraph这种图执行框架。因为需要被放入线程池中的任务,都是可以无序并发执行的,有依赖的任务也不会被放入 pool 中啊。


还有一个问题哈,当 thread 本地没有 task 的时候,从哪个 thread 去 stealing 呢?一般的做法,是在初始化的 pool 时候给每个线程设定编号:比如 0~7,用 index 表示。thread5 进行 stealing 的时候,一般是从 thread6 的 queue 中开始,然后 thread7、thread0... 依次递推到 thread4。这样做的好处,是避免了大家都从某一个 thread 开始 stealing 而导致的不均衡。每个线程在 local 执行任务的时候,从 UWorkStealingQueue 的头部弹出 task,在偷/被偷的时候从 UWorkStealingQueue 尾部弹出 task。


有些时候,work-stealing 机制甚至可能成为“累赘”。举个例子,pool 中一共有 100 个线程吧,那当 thread0 中 queue 无任务的时候,thread0 会去遍历其他的 99 个 thread——就为了盗取一个任务。这个遍历有阻塞耗时不说,也会影响到 thread0 去执行新来的 local task——像极了天天帮同事排查 bug,但是自己一大堆 bug 却来不及修复的纯序员本员。


我们之前提过 local 的内容亲和性是最高的,理应优先执行,对吧。针对这种情况,一种可行的解决办法是设定“盗取范围”(对应 CGraph 中的CGRAPH_MAX_TASK_STEAL_RANGE参数)。比如,thread0 仅可以从相邻的 3 个线程(也就是 thread1、thread2 和 thread3)中盗取任务,如果在这 3 个 thread 中都盗取不到,那就重新尝试看 local 的 queue。其他线程亦是如此。也就是说,大家仅关系自己本地的 task 和自己若干个邻居的 task,离得远的就不用问了。这种“事不关己高高挂起”(低情商说法)行为,在很多情况下却是好事,因为它还有一种高情商说法,就是“专注于自己的工作”,嘿嘿。


随便放几句相关的代码哈,更多代码大家去 github 上面看哈。


/*** 从其他线程窃取一个任务* @param task* @return*/bool stealTask(UTaskWrapperRef task) {    if (unlikely(pool_threads_->size() < CGRAPH_DEFAULT_THREAD_SIZE)) {        /**         * 线程池还未初始化完毕的时候,无法进行steal。         * 确保程序安全运行。         */        return false;    }    /**     * 窃取的时候,仅从相邻的primary线程中窃取     * 待窃取相邻的数量,不能超过默认primary线程数     */    int range = CGRAPH_MAX_TASK_STEAL_RANGE % CGRAPH_DEFAULT_THREAD_SIZE;    for (int i = 0; i < range; i++) {        /**        * 从线程中周围的thread中,窃取任务。        * 如果成功,则返回true,并且执行任务。        */        int curIndex = (index_ + i + 1) % CGRAPH_DEFAULT_THREAD_SIZE;        if (nullptr != (*pool_threads_)[curIndex]            && (((*pool_threads_)[curIndex]))->work_stealing_queue_.trySteal(task)) {            return true;        }    }    return false;}


我实测的一个结果,在开 16 个 thread 运行 48 路大批量空跑 task(就是所有的 task 都是return 0,这样可以一定程度体现出来 pool 的调度能力)情况下,如果不设定 steal 范围,大概是 194s 的样子,已经退化到跟普通线程池基本持平的水平了。而把 steal 范围设置为 4 之后,直接降低到了 163s 左右。不要问我怎么发现这个问题,火焰图会教你做人的。


本章小结


本章主要是介绍了一些线程池在设计过程中,有哪些优化点。总结一下就是下图中画红框的地方,主要的目的就是可以增加扇入扇出。今天分享的这几点偏硬核,都是我在自测过程中,的的确确可以增加调度性能的方案。我们也会在接下来的文章中,继续介绍 CGraph 中线程池的相关优化内容和思路。


6.png


如果你对这方面的内容也感兴趣,请加我微信以便随时联系。有什么实用的功能,我们可以尝试去一起实现。有什么好的指教和意见,也欢迎随时提出来,以便我们改进和提高。


接下来一章,我们将会跟大家介绍一下其他的一些线程池优化机制,比如主辅线程、自动扩缩容等。欢迎大家继续关注。


推荐阅读


纯序员给你介绍图化框架的简单实现——执行逻辑[3]

纯序员给你介绍图化框架的简单实现——循环逻辑[4]

纯序员给你介绍图化框架的简单实现——参数传递[5

]纯序员给你介绍图化框架的简单实现——条件判断[6]

纯序员给你介绍图化框架的简单实现——线程池优化(一)[7]


引用链接


[1] Chunel Feng: http://www.chunel.cn

[2] CGraph 源码链接: https://github.com/ChunelFeng/CGraph

[3] 纯序员给你介绍图化框架的简单实现——执行逻辑: http://www.chunel.cn/archives/cgraph-run-introduce

[4] 纯序员给你介绍图化框架的简单实现——循环逻辑: http://www.chunel.cn/archives/cgraph-loop-introduce

[5] 纯序员给你介绍图化框架的简单实现——参数传递: http://www.chunel.cn/archives/cgraph-param-introduce

[6] 纯序员给你介绍图化框架的简单实现——条件判断: http://www.chunel.cn/archives/cgraph-condition-introduce

[7] 纯序员给你介绍图化框架的简单实现——线程池优化(一): http://www.chunel.cn/archives/cgraph-threadpool-1-introduce

目录
相关文章
|
6月前
|
安全 Java 编译器
多线程(看这一篇就够了,超详细,满满的干货)
多线程(看这一篇就够了,超详细,满满的干货)
64 2
|
6月前
|
存储 并行计算 监控
为师妹写的《Java并发编程之线程池十八问》被表扬啦!
【6月更文挑战第5天】为师妹写的《Java并发编程之线程池十八问》被表扬啦!
59 7
|
7月前
|
Java
剑指JUC原理-12.手写简易版线程池思路
剑指JUC原理-12.手写简易版线程池思路
44 0
|
7月前
|
存储 安全 Java
手撕线程池与性能测试
手撕线程池与性能测试
127 0
|
SQL 缓存 安全
【多线程】——java多线程编程核心读书总结
前段时间学习到多线程相关内容了,看了java多线程编程核心这本书,下面是小编对这本书的总结
直击灵魂!美团大牛手撸并发原理笔记,由浅入深剖析JDK源码
并发编程这四个字想必大家最近都在网上看到过有很多的帖子在讨论。我们都知道并发编程可选择的方式有多进程、多线程和多协程。在Java中,并发就是多线程模式。而多线程编程也一直是一个被广泛而深入讨论的领域。如果遇到复杂的多线程编程场景,大多数情况下我们就需要站在巨人的肩膀上利用并发编程框架——JDK Concurrent包来解决相关线程问题。
面试官:小伙子我们先来唠唠并发编程的几大核心知识点
并发编程算是Java的一个难点,经常做业务相关的程序员基本上用不到juc的包,但是这些知识点十分重要,所以不管在哪里,时刻保持学习真的很重要。
【多线程】线程池如何复用,怎么才能让面试官听懂我说的?
今天来说一下面试中常问到问题,我们知道线程池是帮助我们对线程资源的管理,只有我们合理的使用使用线程池,他才能做到事倍功半,但是你知道线程池是如何复用的吗?
|
监控 Java
手撕Java线程池
原理和源码解析
3836 0
手撕Java线程池
|
人工智能 负载均衡 算法
手撸一款简单高效的线程池(四)
在前几章的内容中,我们给大家介绍了一些 C++线程池中的优化思路和实现方案。这一章中,我们来聊一聊在编程实现过程中,一些工程层面的优化。让我们的代码执行的速度,跟得上自己的思路。
245 0
手撸一款简单高效的线程池(四)