高通量计算框架HTCondor(二)——环境配置

简介: 高通量计算框架HTCondor(二)——环境配置

高通量计算框架HTCondor(二)——环境配置

目录

1. 概述

HTCondor是开源跨平台的分布式计算框架,在其官网上直接提供了源代码和Windows、Linux以及MacOS的安装包。因为平台限制的原因,在Windows下的功能是有所限制的,但其使用也是最直观方便的。为了更加便于了解使用情况,这里我还是采用Windows,建议后期有更多的需求或者基础足够好,可以直接上Linux。

2. 安装

在HTCondor官网上下载Windows安装包,直接打开运行:

点击"Next",显示用户协议界面:

勾选"I accept terms in the License Agreement",点击"Next",进入“创建/加入HTCondor Pool”界面:

对于一组HTCondor Pool,只能有一个中央管理主机(Central Manager),一般要在这个管理中心主机上创建HTCondor Pool,这个机器是集群/网络内计算资源的集中信息库,所有的任务调度工作都会与这台主机相关联,所以中央管理主机应该选择比较稳定的机器。如上图所示,在中央管理主机上创建HTCondor Pool,并将其命名为“HTC_Host”。

但是对于想要连接到HTCondor Pool机器,应该勾选“Join an existing HTCondor Pool”,在"Hostname of Central Manager"中填入中央管理主机的IP地址。

点击"Next",进入“配置执行和提交表现”页面:

这个页面主要用来配置是否允许该机器提交任务,以及采取何种方式提交任务。勾选"Submit jobs to HTCondor Pool"表示允许该机器提交任务,勾选"Always run jobs and never suspend them"表示随时可以运行任务,并且该机器的任何主动操作都不会打断它。当然也可以根据实际情况选择其他的任务策略。

接下来三个配置页,因为暂时没有用到,都可以保持默认:

之后是“主机权限设置”页面,理论上这个配置项也可以保持默认即可。但之前入坑过一个问题,在连接一台XP系统的分机时,主机的写权限的默认设置会造成无法连入的问题。但那个问题已经挺古老了,新的版本也没有具体去求证,我这里把主机的写权限直接设置为所有,应该可以覆盖之前的设置,可以保证正常使用:

点击"Next",保持默认设置:

最后是设置HTCondor的安装目录,这个目录是任务程序的运行环境,可以设置成你认为合适的目录。由于任务运行是可能会附带传送过来的数据,注意安装目录的磁盘要留下足够的空间。

接下来点击"Install",等待程序自动安装:

安装完成后,点击"Finish"并重启,HTCondor的环境就搭建完成了。

3. 结果

分别在两台机器上安装HTCondor环境,一台作为HTCondor Pool的中央管理主机,一台作为普通任务机。分别在两台机器的CMD上运行condor_status命令,可以看到如下所示的结果:

这里面连入了两台机器,DESKTOP-OVH是一台12核的主机,charlee-PC是一台4核主机,它们都是形如slot@name的名称。

在集群/网络所有的机器上都能互相看到计算机资源,就说明HTCondor的环境搭建是正确的。

4. 相关

上一篇

目录

下一篇

分类: 分布式计算

标签: HTCondor , 分布式计算 , 集群计算

相关文章
|
3月前
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化研究到生产的工作流程
【8月更文第29天】深度学习项目往往面临着从研究阶段到生产部署的挑战。研究人员和工程师需要处理大量的工程问题,比如数据加载、模型训练、性能优化等。PyTorch Lightning 是一个轻量级的封装库,旨在通过减少样板代码的数量来简化 PyTorch 的使用,从而让开发者更专注于算法本身而不是工程细节。
90 1
|
3月前
|
分布式计算 数据安全/隐私保护
高通量计算框架HTCondor(三)——使用命令
高通量计算框架HTCondor(三)——使用命令
54 0
|
3月前
|
分布式计算 负载均衡 Hadoop
高通量计算框架HTCondor(一)——概述
高通量计算框架HTCondor(一)——概述
106 0
|
3月前
|
分布式计算 负载均衡 数据处理
高通量计算框架HTCondor(四)——案例准备
高通量计算框架HTCondor(四)——案例准备
39 0
|
6月前
|
机器学习/深度学习 PyTorch API
大规模 MLOps 工程(四)(1)
大规模 MLOps 工程(四)
44 1
|
6月前
|
机器学习/深度学习 存储 算法
大规模 MLOps 工程(四)(3)
大规模 MLOps 工程(四)
49 1
|
6月前
|
存储 机器学习/深度学习 PyTorch
大规模 MLOps 工程(二)(3)
大规模 MLOps 工程(二)
50 0
|
6月前
|
机器学习/深度学习 并行计算 PyTorch
大规模 MLOps 工程(三)(1)
大规模 MLOps 工程(三)
38 0
|
6月前
|
机器学习/深度学习 存储 PyTorch
大规模 MLOps 工程(三)(2)
大规模 MLOps 工程(三)
47 0
|
6月前
|
机器学习/深度学习 存储 自然语言处理
大规模 MLOps 工程(三)(4)
大规模 MLOps 工程(三)
66 0