actor-based programming与构建大规模扩展性的并行系统

简介:

1.actor-based  programming

 actor based 类似于object based ,但是它比object 多了自己的message queue 和message processor、message handler

也就是说一个actor是一个独立的处理单元,但是他不是真正的物理上的thread

可以看成是轻量级的thread。

一个actor可以给另一个actor push msg

这样系统中就可以存在大量的独立活动单元,是并行系统的基本组件。

2.Intel TBB(Threading Build Block)

这是intel的一个开源的高性能线程库,它可以很大效率的支持多个任务的并行(这是隐藏实际的物理的thread的),我们可以把上面的actor分配给TBB去调度管理,来实现高性能的并行系统。

这个库还提供了各种thread-safe的container,而我们知道标准c++的stl的container都是线程不安全的。

 

感想

这种actor-based方法让我想到了QT中的Qwidget,他们可以互相通信,有各自的message queue,但是不同的是Qwidget是单线程的,没有一个多线程库去对他们之间做并发。

 

使用actor-based方法构建并行系统,比我们单纯使用多线程来实现的好处是:

1.纯多线程的系统受线程数量的影响,当系统复杂度提高时,线程数目要升高,会降低性能甚至不能扩展系统。

2.纯多线程的系统一般要使用lock critical area等来对线程进行互斥,当系统复杂度提升时,各种dead lock等问题也会出来,降低性能。而actor-based是share nothing的,一个actor里面的数据是相互独立的,不必使用线程间的互斥和等待。

但是个人认为这种情况是理想的,有时还是要用锁的,关于这个,现在有一种transactional memory的东西来实现无锁的多线程并发,不过还处于实验阶段。

目录
相关文章
|
3月前
|
数据采集 API TensorFlow
简化目标检测流程:深入探讨TensorFlow Object Detection API的高效性与易用性及其与传统方法的比较分析
【8月更文挑战第31天】TensorFlow Object Detection API 是一项强大的工具,集成多种先进算法,支持 SSD、Faster R-CNN 等模型架构,并提供预训练模型,简化目标检测的开发流程。用户只需准备数据集并按要求处理,选择预训练模型进行微调训练即可实现目标检测功能。与传统方法相比,该 API 极大地减少了工作量,提供了从数据预处理到结果评估的一站式解决方案,降低了目标检测的技术门槛,使初学者也能快速搭建高性能系统。未来,我们期待看到更多基于此 API 的创新应用。
35 0
|
3月前
|
存储 异构计算
自研分布式训练框架EPL问题之通过strategy annotation实现流水并行如何解决
自研分布式训练框架EPL问题之通过strategy annotation实现流水并行如何解决
|
3月前
|
并行计算 算法 调度
自研分布式训练框架EPL问题之提高GPU利用率如何解决
自研分布式训练框架EPL问题之提高GPU利用率如何解决
|
4月前
|
数据采集
LabVIEW Actor架构特点与适用范围
LabVIEW Actor架构特点与适用范围
34 1
DeepRec Extension 打造稳定高效的分布式训练
DeepRec Extension 即 DeepRec 扩展,在 DeepRec 训练推理框架之上,围绕大规模稀疏模型分布式训练,我们从训练任务的视角提出了自动弹性训练,分布式容错等功能,进一步提升稀疏模型训练的整体效率,助力 DeepRec 引擎在稀疏场景中发挥更大的优势。
|
存储 并行计算 数据处理
每日一博 - MPP(Massively Parallel Processing,大规模并行处理)架构
每日一博 - MPP(Massively Parallel Processing,大规模并行处理)架构
493 0
|
机器学习/深度学习 并行计算 安全
PyTorch并行与分布式(四)Distributed Data Papallel
PyTorch并行与分布式(四)Distributed Data Papallel
275 0
|
并行计算 算法 NoSQL
基于ray 多进程调度管理能力优化networks节点最短路径的并行计算
原生的networkx实现的只能在节点介数度量性任务上达到单核心100的cpu利用率。通过对源码的几行改造我们可以实现多核心的100的利用率。接下来要我们来一起看看是如何实现的多核心100的利用率。
161 0
基于ray 多进程调度管理能力优化networks节点最短路径的并行计算
|
存储 缓存 分布式计算
Structured_体系结构_无限扩展的表 | 学习笔记
快速学习 Structured_体系结构_无限扩展的表
Structured_体系结构_无限扩展的表 | 学习笔记
|
机器学习/深度学习 中间件 语音技术
GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware
我们设计了GPU多机多卡middleware,使得单机版机器学习程序可以通过插入middleware较快的实现基于ASGD或MA的多机多卡训练,此前各自基于open source工具所做的独有修改都可以得以充分保留。
16134 0