【架构】流水线结合生产者消费者模型赋能模型推理过程

简介: 【架构】流水线结合生产者消费者模型赋能模型推理过程

前言

  由于神经网络模型通常较大且计算密集,因此需要大量的计算资源和时间来训练和推理。加速程序可以显著减少训练和推理时间,提高效率,同时降低成本。此外,通过优化神经网络模型的训练和推理过程,可以减少不必要的计算量,进一步加速程序。在项目需要落地进行推理时往往会因为设备算力不够或因为利用率不高导致运行效率低下,今天便从优化推理架构角度进行分析。

流水线

  流水线技术是一种将一个任务分解为若干顺序执行子任务的方法,不同的子任务由不同的执行机构负责执行,而这些机构可以同时并行工作,任一任务只占用其中一个执行机构,这样就可以实现多个任务的重叠执行,以提高工作效率。

  如果以传统的方式,完成k个任务所需的时间是kNt,而使用流水线技术执行,花费的时间是Nt + (k - 1)t。也就是说,除了第一个任务需要完整的时间外,其他任务都通过并行执行以节省大量时间。所以流水线的执行时间可以通俗地表达为: 【流水线执行时间 = 第1条指令的执行时间 + (n - 1)* 流水线周期】 。

  这里我们可以化抽象为具体进行分析,如下这三个模块耗时所示:

  1. 生产数据(耗时1秒)
  2. 处理数据(耗时3秒)
  3. 推送数据(耗时可忽略不计)

当我们执行一次上述模块耗时为4秒,生产数据占25%运行时间,有75%的时间属于空闲状态,这明显是可以进行优化的。

  在处理模块这里耗时为3秒,我们可以增加处理数据模块的数量为3个进行优化,我们采用流水线操作可得耗时数据流明细:

时间 生产(1个) 处理(3个) 推送(1个)
1 1
2 2 1.1
3 3 1.2-2.1
4 4 1.3;2.2;3.1 1
5 5 2.3;3.2;4.1 2
6 6 3.3;4.2;5.1 3
7 7 4.3;5.2;6.1 4
8 8 5.3;6.2;7.1 5
9 9 6.3;7.2;8.1 6

python代码

  由于模型推理代码较为繁杂,在这里我将推理模块抽象为上述模块进行模拟实验进行验证:

python

复制代码

import time
from concurrent.futures import ThreadPoolExecutor
# 处理一个数据用时3秒
def myFunc(n):
    time.sleep(3)
    return n
# 生产一个数据时间用时1秒
def num(n):
    time.sleep(1)
    return n
max_works = 3
count = 1
# 使用ThreadPoolExecutor来并行处理数据
with ThreadPoolExecutor(max_workers=max_works) as executor:
    while True:
        n = num(count)
        future = executor.submit(myFunc, n)
        future.add_done_callback(lambda future: print("此时输出的数据为", future.result()))
        print("此时运行的时间t为:", count)
        count += 1

在上述代码中我们分别使用sleep模拟了处理耗时,运行上述代码可以得到只有前三秒时间无法获取数据,在第四秒开始可以陆陆续续得到处理好的数据,这样我们的生产数据环节处于一直工作状态,如果大家需要

复制代码

此时运行的时间t为: 1
此时运行的时间t为: 2
此时运行的时间t为: 3
此时运行的时间t为: 4
此时输出的数据为 1
此时输出的数据为 2
此时运行的时间t为: 5
此时输出的数据为 3
此时运行的时间t为: 6
此时输出的数据为 4
此时运行的时间t为: 7
此时输出的数据为 5
此时运行的时间t为: 8
此时输出的数据为 6
此时运行的时间t为: 9
此时输出的数据为 7


相关文章
|
6天前
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI 和 LLaMA Factory 框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
|
14天前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
49 3
|
8天前
|
边缘计算 人工智能 安全
5G 核心网络 (5GC) 与 4G 核心网:架构变革,赋能未来
5G 核心网络 (5GC) 与 4G 核心网:架构变革,赋能未来
29 6
|
9天前
|
机器学习/深度学习 数据可视化 JavaScript
探索机器学习模型的可视化技术
【9月更文挑战第23天】在数据科学中,理解和解释机器学习模型的决策过程是至关重要的。本文将介绍几种流行的可视化工具和库,如TensorBoard、D3.js等,帮助读者更好地理解模型内部工作原理及其预测结果。通过实例演示如何使用这些工具进行模型可视化,增强模型的可解释性。
|
10天前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
23 3
|
20天前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
60 4
|
23天前
|
机器学习/深度学习 Python
验证集的划分方法:确保机器学习模型泛化能力的关键
本文详细介绍了机器学习中验证集的作用及其划分方法。验证集主要用于评估模型性能和调整超参数,不同于仅用于最终评估的测试集。文中描述了几种常见的划分方法,包括简单划分、交叉验证、时间序列数据划分及分层抽样划分,并提供了Python示例代码。此外,还强调了在划分数据集时应注意随机性、数据分布和多次实验的重要性。合理划分验证集有助于更准确地评估模型性能并进行有效调优。
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习模型之深度神经网络的特点
深度神经网络(Deep Neural Networks, DNNs)是一类机器学习模型,通过多个层级(层)的神经元来模拟人脑的工作方式,从而实现复杂的数据处理和模式识别任务。
32 1
|
27天前
|
传感器 Cloud Native 物联网
Micronaut在物联网中的应用探索:轻盈架构赋能万物互联新时代
【9月更文挑战第6天】Micronaut是一个现代、轻量级的Java框架,以其高效、易用及对云原生环境的支持,在物联网开发中展现出独特优势。它通过AOT编译技术优化应用,减少内存消耗,适合资源受限的设备。Micronaut支持反应式编程和HTTP/2,提升并发处理能力和网络传输效率。本文通过一个温度传感器数据收集服务的例子,展示了如何利用Micronaut简化物联网应用开发,使其成为该领域的理想选择。
33 3
|
1月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
下一篇
无影云桌面