概念
- Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的
JVM
进程。一个Topology
可以包含一个或多个worker
(并行的跑在不同的物理机上), 所以worker process
就是执行一个topology
的子集, 并且worker
只能对应于一个topology
。 - Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks。但一般默认每个executor只执行一个task。一个worker可以包含一个或多个executor, 每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component。
- Tasks(bolt/spout instances):Task就是具体的处理逻辑对象,每一个
Spout
和Bolt
会被当作很多task
在整个集群里面执行。每一个task
对应到一个线程,而stream grouping
则是定义怎么从一堆task发射tuple
到另外一堆task
。你可以调用TopologyBuilder.setSpout
和TopBuilder.setBolt
来设置并行度 — 也就是有多少个task。
配置并行度
1.对于并发度的配置, 在storm里面可以在多个地方进行配置, 优先级为:
defaults.yaml < storm.yaml < topology-specific configuration < internal component-specific configuration < external component-specific configuration
2.worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果, 数目至少应该大亍machines的数目
3.executor的数目, component的并发线程数,只能在代码中配置(通过setBolt和setSpout的参数), 例如, setBolt(“green-bolt”, new GreenBolt(), 2)
4.tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过setNumTasks()配置
Topology的worker数通过config设置,即执行该topology的worker(java)进程数。它可以通过 storm rebalance 命令任意调整。
Config conf = newConfig(); conf.setNumWorkers(2); //用2个worker topologyBuilder.setSpout("blue-spout", newBlueSpout(), 2); //设置2个并发度 topologyBuilder.setBolt("green-bolt", newGreenBolt(), 2).setNumTasks(4).shuffleGrouping("blue-spout"); //设置2个并发度,4个任务 topologyBuilder.setBolt("yellow-bolt", newYellowBolt(), 6).shuffleGrouping("green-bolt"); //设置6个并发度 StormSubmitter.submitTopology("mytopology", conf, topologyBuilder.createTopology());
3个组件的并发度加起来是10,就是说拓扑一共有10个executor,一共有2个worker,每个worker产生10 / 2 = 5条线程。
绿色的bolt配置成2个executor和4个task。为此每个executor为这个bolt运行2个task。
5.动态的改变并行度
Storm支持在不 restart topology
的情况下, 动态的改变(增减) worker processes
的数目和 executors
的数目, 称为rebalancing
. 通过Storm web UI
,或者通过storm rebalance
命令实现:
storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10