高通量计算框架HTCondor(二)——环境配置

简介: 高通量计算框架HTCondor(二)——环境配置

高通量计算框架HTCondor(二)——环境配置

目录

1. 概述

HTCondor是开源跨平台的分布式计算框架,在其官网上直接提供了源代码和Windows、Linux以及MacOS的安装包。因为平台限制的原因,在Windows下的功能是有所限制的,但其使用也是最直观方便的。为了更加便于了解使用情况,这里我还是采用Windows,建议后期有更多的需求或者基础足够好,可以直接上Linux。

2. 安装

在HTCondor官网上下载Windows安装包,直接打开运行:

点击"Next",显示用户协议界面:

勾选"I accept terms in the License Agreement",点击"Next",进入“创建/加入HTCondor Pool”界面:

对于一组HTCondor Pool,只能有一个中央管理主机(Central Manager),一般要在这个管理中心主机上创建HTCondor Pool,这个机器是集群/网络内计算资源的集中信息库,所有的任务调度工作都会与这台主机相关联,所以中央管理主机应该选择比较稳定的机器。如上图所示,在中央管理主机上创建HTCondor Pool,并将其命名为“HTC_Host”。

但是对于想要连接到HTCondor Pool机器,应该勾选“Join an existing HTCondor Pool”,在"Hostname of Central Manager"中填入中央管理主机的IP地址。

点击"Next",进入“配置执行和提交表现”页面:

这个页面主要用来配置是否允许该机器提交任务,以及采取何种方式提交任务。勾选"Submit jobs to HTCondor Pool"表示允许该机器提交任务,勾选"Always run jobs and never suspend them"表示随时可以运行任务,并且该机器的任何主动操作都不会打断它。当然也可以根据实际情况选择其他的任务策略。

接下来三个配置页,因为暂时没有用到,都可以保持默认:

之后是“主机权限设置”页面,理论上这个配置项也可以保持默认即可。但之前入坑过一个问题,在连接一台XP系统的分机时,主机的写权限的默认设置会造成无法连入的问题。但那个问题已经挺古老了,新的版本也没有具体去求证,我这里把主机的写权限直接设置为所有,应该可以覆盖之前的设置,可以保证正常使用:

点击"Next",保持默认设置:

最后是设置HTCondor的安装目录,这个目录是任务程序的运行环境,可以设置成你认为合适的目录。由于任务运行是可能会附带传送过来的数据,注意安装目录的磁盘要留下足够的空间。

接下来点击"Install",等待程序自动安装:

安装完成后,点击"Finish"并重启,HTCondor的环境就搭建完成了。

3. 结果

分别在两台机器上安装HTCondor环境,一台作为HTCondor Pool的中央管理主机,一台作为普通任务机。分别在两台机器的CMD上运行condor_status命令,可以看到如下所示的结果:

这里面连入了两台机器,DESKTOP-OVH是一台12核的主机,charlee-PC是一台4核主机,它们都是形如slot@name的名称。

在集群/网络所有的机器上都能互相看到计算机资源,就说明HTCondor的环境搭建是正确的。

4. 相关

上一篇

目录

下一篇

分类: 分布式计算

标签: HTCondor , 分布式计算 , 集群计算

相关文章
|
机器学习/深度学习 人工智能 算法
深度强化学习中实验环境-开源平台框架汇总
深度强化学习中实验环境-开源平台框架汇总
258 0
|
4天前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
25 4
|
1月前
|
分布式计算 数据安全/隐私保护
高通量计算框架HTCondor(三)——使用命令
高通量计算框架HTCondor(三)——使用命令
29 0
|
1月前
|
分布式计算 负载均衡 Hadoop
高通量计算框架HTCondor(一)——概述
高通量计算框架HTCondor(一)——概述
40 0
|
4月前
|
机器学习/深度学习 存储 算法
大规模 MLOps 工程(四)(3)
大规模 MLOps 工程(四)
36 1
|
4月前
|
机器学习/深度学习 PyTorch API
大规模 MLOps 工程(四)(1)
大规模 MLOps 工程(四)
30 1
|
4月前
|
机器学习/深度学习 存储 PyTorch
大规模 MLOps 工程(三)(2)
大规模 MLOps 工程(三)
40 0
|
4月前
|
存储 机器学习/深度学习 PyTorch
大规模 MLOps 工程(二)(3)
大规模 MLOps 工程(二)
39 0
|
4月前
|
机器学习/深度学习 存储 PyTorch
大规模 MLOps 工程(二)(4)
大规模 MLOps 工程(二)
42 0
|
4月前
|
机器学习/深度学习 PyTorch API
大规模 MLOps 工程(三)(5)
大规模 MLOps 工程(三)
47 0