Storm并发度详解(转载)

简介: 转自:http://blog.csdn.net/lzm1340458776/article/details/45286207工作进程(Worker Process)Worker是Spout/Bolt中运行具体处理逻辑的进程。

转自:http://blog.csdn.net/lzm1340458776/article/details/45286207

工作进程(Worker Process)

Worker是Spout/Bolt中运行具体处理逻辑的进程。拓扑跨一个或多个Worker进程执行。每个Worker进程是一个物理的JVM和拓扑执行所有任务的一个子集。例如,如果合并并行度的拓扑是300,已经分配50个Worker,然后每个Worker将执行6个任务,Storm会尝试在所有Worker上均匀的发布任务。

执行器(Executor)

Executor称为物理线程,每个Worker可以包含多个Executor。

任务(Task)

Task是具体的处理逻辑对象,默认情况下,执行器和任务对应,即一个执行器对应一个任务。

工作进程、执行器、任务三者之间的关系如下图所示:

img_c047b89656b783bd75eef4f96d7abfbf.png

Storm集群的一个节点可能有一个或者多个工作进程运行在运行在一个或者过个拓扑上,一个工作进程执行拓扑的一个子集。工作进程属于一个特定的拓扑,并可能为这个拓扑的一个或多个组件(spout或bolt)运行一个或多个执行器。一个运行中的拓扑包括多个运行在Storm集群内多个节点的进程。

一个或者多个执行器可能运行在一个工作进程内,执行器是由工作进程产生的一个线程,他可能为相同的组件(Spout或Bolt)运行一个或多个任务。

任务执行真正的数据处理,代码中实现的每个Spout或Bolt,作为很多任务跨集群执行。一个组件的任务数量始终贯穿拓扑的整个生命周期,但一个组件的执行器(线程)数量可以随时间而该变。默认情况下,一个执行器包含一个任务数,即Storm会使用每个线程执行一个任务。

配置拓扑的并行度

1.工作进程的数量

工作进程的数量表示集群中不同节点的拓扑可以创建爱你多少个工作进程。

配置参数是:TOPOLOGY_WORKERS

也可以通过JavaAPI进行设置:


Config#setNumWorkers

2.执行器(线程)的数量

执行器的数量指的是每个组件产生多少个线程。

这个参数暂时只能通过javaAPI进行配置:


TopologyBuilder#setSpout()

TopologyBuilder#setBolt()

3.任务的数量

任务的数量表示的是每个组件创建多少个任务。

配置选项:TOPOLOGY_TASKS

也可以通过JavaAPI进行配置:


ComponentConfigurationDeclarer#setNumTasks()

T setNumTasks(java.lang.Number val)

拓扑示例

下面我们定义一个名为mytopology的拓扑,由一个Spout组件(BlueSpout)、两个Bolt组件(GreenBolt和YellowBolt)共三个组件构成,代码如下:


Configconf=newConfig();

conf.setNumWorkers(2);

topologyBuilder.setSpout("blue-spout", new BlueSpout(), 2);

topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2)

.setNumTasks(4)

.shuffleGrouping("blue-spout");

topologyBuilder.setBolt("yellow-bolt", new YellowBolt(), 6)

.shuffleGrouping("green-bolt");

StormSubmitter.submitTopology(

"mytopology",

conf,

topologyBuilder.createTopology()

);

mytopology拓扑的描述如下:

1.拓扑将使用两个工作进程(Worker)。

2.Spout是id为“blue-spout”、并行度为2的BlueSpout实例(产生两个执行器和两个任务)。

3.第一个Bolt的id为"green-bolt"、并行度为2、任务数为4、使用随机分组方式接收"blue-spout"所发射元组的GreenBolt实例(产生两个执行器和4个任务)。

4.第二个Bolt是id为"yellow-bolt"、并行度为6、使用随机分组方式接收"green-bolt"所发射元组的YellowBolt实例(产生6个执行器和6个任务)。

综上所述,该拓扑一共有两个工作进程(Worker),2+2+6=10个执行器(Executor),2+3+6=12个任务。因此,每个工作进程可以分配到10/2=5个执行器,12/2=6个任务。默认情况下,一个执行器执行一个任务,但是如果指定了任务的数目,则任务会平均分配到执行器中,因此,GreenBolt的实例"green-bolt"的一个执行器将会分配到4/2个任务。

mytopology的拓扑及其对应的资源分配如下图所示:

img_ae3fda3fbdba6e460bc1c062c1a26ffd.png

动态设置拓扑的并发度

Storm支持在不重启Topolog的情况下,动态的改变(增减)worker process的数目和Executor的数目,称为rebalancing。有两种方式可以实现拓扑的再平衡:

1.使用Storm Web UI

2.使用Storm rebalance命令(推荐使用)

使用命令行的方式如下:


# 重新配置拓扑

# "mytopology" 拓扑使用5个Worker进程

# "blue-spout" Spout使用3个Executor

# "blue-spout" Bolt使用10个Executor

# storm rebalance mytopology -n 5 -eblue-spout=3-eyellow-bolt=10

注:"mytopology"是拓扑的名称,"blue-spout"和"yellow-bolt"是组件的名称。

目录
相关文章
|
Java 流计算
119 Storm的并发机制
119 Storm的并发机制
46 0
|
1月前
|
SQL 传感器 开发框架
今天我们聊聊C#的并发和并行
今天我们聊聊C#的并发和并行
57 1
|
3月前
|
存储 监控 Java
实时计算 Flink版产品使用问题之随着时间增加,作业的CPU繁忙度增加,是什么原因
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
消息中间件 缓存 并行计算
每秒钟承载600万订单级别的无锁并行计算框架 Disruptor学习
每秒钟承载600万订单级别的无锁并行计算框架 Disruptor学习
|
5月前
|
负载均衡 并行计算 Java
分布式系统中,利用并行和并发来提高整体的处理能力
分布式系统中,利用并行和并发来提高整体的处理能力
|
6月前
|
机器学习/深度学习 分布式计算 负载均衡
并发与并行
并发与并行
63 0
并行,并发?
并行,并发?
36 0
|
存储 监控 Linux
Netty如何做到单机百万并发?(二)
Netty如何做到单机百万并发?(二)
Netty如何做到单机百万并发?(二)
|
消息中间件 编解码 JavaScript
Netty如何做到单机百万并发?(一)
Netty如何做到单机百万并发?(一)
Netty如何做到单机百万并发?(一)
|
监控 搜索推荐 Linux
Netty如何做到单机百万并发?(三)
Netty如何做到单机百万并发?(三)
Netty如何做到单机百万并发?(三)