一日一技:如何让 itertools.tee 线程安全

简介: 一日一技:如何让 itertools.tee 线程安全

摄影:产品经理一起吃:kingname & 产品经理

在上一篇文章中,我们说到了,itertools.tee不是线程安全的,并给出了一个例子,如下图所示:

在两个线程里面同时运行分裂出来的生成器对象,就会导致报错。

现在,你想看看itertools.tee的源代码,但是你会发现,在 PyCharm 里面,它的源代码如下图所示:

这是因为,在 CPython 中,itertools.tee底层是通过 C 语言实现的,所以你不能在 PyCharm 中看到它的源代码。但是你可以通过阅读 Python 的源代码中的 Modules/itertoolsmodule.c 文件[1],找到它的实现算法。

导致问题的核心部分在如下图所示的两段代码中:

大家看不懂也没有关系,根据我上一篇文章中使用 Python 实现的简化版本就足够帮助理解了。

我们使用简化版本来解释其中线程不安全的地方:

def generator():
    for i in range(3):
        yieldf'我是你第{i}个爷爷'
def split(g):
    value_list_1 = []
    value_list_2 = []
    def wrap(queue):
        whileTrue:
            ifnot queue:
                try:
                    value = next(g)
                except StopIteration:
                    return
                value_list_1.append(value)
                value_list_2.append(value)
            yield queue.pop(0)
    g_1 = wrap(value_list_1)
    g_2 = wrap(value_list_2)
    return g_1, g_2
g = generator()
g_1, g_2 = split(g)
for value in g_1:
    print(value)
for value in g_2:
    print(value)

当两个线程同时运行到if not queue时,发现当前各自的队列都是空的,于是进入value = next(g)获取下一个值。其中,线程 A 先进入那么几毫秒。然后线程 B 进入value = next(g)。但由于此时线程 A 中的next(g)正在运行,尚未结束,线程 B 又跑来运行,于是就导致了报错的发生。Python 中,生成器不是线程安全的。

那么如何让itertools.tee分裂出来的多个生成器可以在多线程中运行呢?其关键因素就是让value = next(g)这一行一次只能让一个线程运行。所以我们可以通过加锁来实现。

import itertools
from threading import Lock
class KingnameTee:
    def __init__(self, tee_obj, lock):
        self.tee_obj = tee_obj
        self.lock = lock
    def __iter__(self):
        return self
    def __next__(self):
        with self.lock:
            return next(self.tee_obj)
    def __copy__(self):
        return KingnameTee(self.tee_obj.__copy__(), self.lock)
def safe_tee(iterable, n=2):
    """tuple of n independent thread-safe iterators"""
    lock = Lock()
    return tuple(KingnameTee(tee_obj, lock) for tee_obj in itertools.tee(iterable, n))

我们来看看运行效果:

多线程完美运行。

目录
相关文章
|
XML JSON 数据格式
如何在langchain中对大模型的输出进行格式化
我们知道在大语言模型中, 不管模型的能力有多强大,他的输入和输出基本上都是文本格式的,文本格式的输入输出虽然对人来说非常的友好,但是如果我们想要进行一些结构化处理的话还是会有一点点的不方便。
|
2月前
|
存储 Android开发 数据安全/隐私保护
安卓手机和苹果手机如何快速完成文件互传?安卓手机文件传到苹果手机方法分享
在日常工作中,跨设备文件传输需求频繁,尤其是Android与iOS之间。本文推荐一款名为LocalSend的工具,支持Android、iOS、Windows、Mac平台,通过局域网实现快速、安全的文件互传,无需互联网连接。操作简便,界面直观,适合多设备用户使用。
808 1
|
9天前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
123 43
|
Linux 应用服务中间件 虚拟化
Linux系列——VMware虚拟机配置端口转发(端口映射),实现远程访问
Linux系列——VMware虚拟机配置端口转发(端口映射),实现远程访问
|
机器学习/深度学习 算法 TensorFlow
【Python机器学习】梯度下降法的讲解和求解方程、线性回归实战(Tensorflow、MindSpore平台 附源码)
【Python机器学习】梯度下降法的讲解和求解方程、线性回归实战(Tensorflow、MindSpore平台 附源码)
322 0
|
6月前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
815 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
6月前
|
移动开发 JavaScript 前端开发
vue中npm打包遇到× eslint —fix found some errors. Please fix them and try committing again.husky > pre-commit hook failed (add —no-verify to bypass)报错解决方案-卓伊凡
vue中npm打包遇到× eslint —fix found some errors. Please fix them and try committing again.husky > pre-commit hook failed (add —no-verify to bypass)报错解决方案-卓伊凡
225 7
vue中npm打包遇到× eslint —fix found some errors. Please fix them and try committing again.husky > pre-commit hook failed (add —no-verify to bypass)报错解决方案-卓伊凡
|
机器学习/深度学习
小土堆-pytorch-神经网络-损失函数与反向传播_笔记
在使用损失函数时,关键在于匹配输入和输出形状。例如,在L1Loss中,输入形状中的N代表批量大小。以下是具体示例:对于相同形状的输入和目标张量,L1Loss默认计算差值并求平均;此外,均方误差(MSE)也是常用损失函数。实战中,损失函数用于计算模型输出与真实标签间的差距,并通过反向传播更新模型参数。
162 7
|
人工智能 自然语言处理 API
深入浅出LangChain与智能Agent:构建下一代AI助手
LangChain为大型语言模型提供了一种全新的搭建和集成方式,通过这个强大的框架,我们可以将复杂的技术任务简化,让创意和创新更加易于实现。本文从LangChain是什么到LangChain的实际案例到智能体的快速发展做了全面的讲解。
282589 62
深入浅出LangChain与智能Agent:构建下一代AI助手
|
Ubuntu Linux 编译器
当自身需要使用的 gcc版本 和Linux 默认版本 存在大版本差异时怎样处理
当自身需要使用的 gcc版本 和Linux 默认版本 存在大版本差异时怎样处理
434 2