使用collective模式

使用collective模式，sok+hovorod, 不用分ps-worker角色，将group_embedding设成collective就可以了吗？还是要其它特别的设置？

展开

收起

游客242jp2lsd3dac 2023-04-17 18:54:53 372 版权

2 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
在使用PAI的collective模式时，您可以将 group_embedding 设置为 collective，来启用分布式训练。但是，为了确保成功运行分布式训练，您还需要注意以下几个方面：
1. 数据分片：在分布式训练中，数据需要按照一定的方式进行分片（shard），以便每个worker进程都可以访问到不同的数据子集。您需要根据数据量、内存使用等因素确定要分成多少个数据片段，并在训练脚本中设置相关的参数。
2. 进程数量：在使用 collective 模式时，默认情况下PAI会根据当前节点的CPU数量和实例数配置适当的worker进程数量。您可以根据实际情况调整进程数量，以达到最佳的性能。
3. hovorod参数：Hovorod是PAI中常用的分布式训练框架，包括了一些系统级别的参数需要进行配置，如backend, local_rank等，这些参数可能会对系统的性能和稳定性产生影响。
4. 算法选择：在使用 collective 模式时，除了 group_embedding 设置为 collective 以外，还需要根据所选的算法类型进行相关的设置。例如，您选用的算法是Sok，则需要按照官方文档的要求进行配置。
2023-04-30 10:30:31

赞同展开评论
爱吃白菜的GGB
在使用Horovod进行分布式训练时，可以通过Collective模式来实现数据并行和模型并行。在Collective模式下，每个进程都可以访问完整的模型和数据，并且使用Horovod提供的Allreduce、Allgather等原语进行通信和同步。

如果你想使用Collective模式，需要在Horovod初始化时将分布式框架设置为Collective，可以通过以下代码实现：
```
import horovod.tensorflow as hvd
# 初始化Horovod
hvd.init()
# 将分布式框架设置为Collective
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
config.gpu_options.visible_device_list = str(hvd.local_rank())
config = hvd.BroadcastGlobalVariablesHook(0, 1, config)
# 构建模型
model = ...
# 编译模型
model.compile(optimizer=..., loss=..., metrics=..., hooks=[config])
# 训练模型
model.fit(...)
```
在上述代码中，我们首先初始化Horovod，并将分布式框架设置为Collective模式。然后，我们通过tf.ConfigProto()设置GPU的相关参数，并将其绑定到Collective模式上。接着，我们构建和编译模型，并将Collective模式添加到模型的hooks中。最后，我们使用fit()方法来训练模型。

总的来说，使用Collective模式需要进行一些特别的设置，但这些设置可以较为方便地实现数据并行和模型并行，提高模型的训练速度和效果。
2023-04-20 22:53:41

赞同展开评论

使用collective模式

人工智能平台PAI

相关文章

热门讨论

热门文章