高通量计算框架HTCondor(二)——环境配置

简介: 高通量计算框架HTCondor(二)——环境配置

高通量计算框架HTCondor(二)——环境配置

目录

1. 概述

HTCondor是开源跨平台的分布式计算框架,在其官网上直接提供了源代码和Windows、Linux以及MacOS的安装包。因为平台限制的原因,在Windows下的功能是有所限制的,但其使用也是最直观方便的。为了更加便于了解使用情况,这里我还是采用Windows,建议后期有更多的需求或者基础足够好,可以直接上Linux。

2. 安装

在HTCondor官网上下载Windows安装包,直接打开运行:

点击"Next",显示用户协议界面:

勾选"I accept terms in the License Agreement",点击"Next",进入“创建/加入HTCondor Pool”界面:

对于一组HTCondor Pool,只能有一个中央管理主机(Central Manager),一般要在这个管理中心主机上创建HTCondor Pool,这个机器是集群/网络内计算资源的集中信息库,所有的任务调度工作都会与这台主机相关联,所以中央管理主机应该选择比较稳定的机器。如上图所示,在中央管理主机上创建HTCondor Pool,并将其命名为“HTC_Host”。

但是对于想要连接到HTCondor Pool机器,应该勾选“Join an existing HTCondor Pool”,在"Hostname of Central Manager"中填入中央管理主机的IP地址。

点击"Next",进入“配置执行和提交表现”页面:

这个页面主要用来配置是否允许该机器提交任务,以及采取何种方式提交任务。勾选"Submit jobs to HTCondor Pool"表示允许该机器提交任务,勾选"Always run jobs and never suspend them"表示随时可以运行任务,并且该机器的任何主动操作都不会打断它。当然也可以根据实际情况选择其他的任务策略。

接下来三个配置页,因为暂时没有用到,都可以保持默认:

之后是“主机权限设置”页面,理论上这个配置项也可以保持默认即可。但之前入坑过一个问题,在连接一台XP系统的分机时,主机的写权限的默认设置会造成无法连入的问题。但那个问题已经挺古老了,新的版本也没有具体去求证,我这里把主机的写权限直接设置为所有,应该可以覆盖之前的设置,可以保证正常使用:

点击"Next",保持默认设置:

最后是设置HTCondor的安装目录,这个目录是任务程序的运行环境,可以设置成你认为合适的目录。由于任务运行是可能会附带传送过来的数据,注意安装目录的磁盘要留下足够的空间。

接下来点击"Install",等待程序自动安装:

安装完成后,点击"Finish"并重启,HTCondor的环境就搭建完成了。

3. 结果

分别在两台机器上安装HTCondor环境,一台作为HTCondor Pool的中央管理主机,一台作为普通任务机。分别在两台机器的CMD上运行condor_status命令,可以看到如下所示的结果:

这里面连入了两台机器,DESKTOP-OVH是一台12核的主机,charlee-PC是一台4核主机,它们都是形如slot@name的名称。

在集群/网络所有的机器上都能互相看到计算机资源,就说明HTCondor的环境搭建是正确的。

4. 相关

上一篇

目录

下一篇

分类: 分布式计算

标签: HTCondor , 分布式计算 , 集群计算

相关文章
|
机器学习/深度学习 人工智能 算法
深度强化学习中实验环境-开源平台框架汇总
深度强化学习中实验环境-开源平台框架汇总
277 0
|
2月前
|
Prometheus 监控 Cloud Native
【揭秘可观测性】构建完美参考框架,打造系统监控的瑞士军刀!
【8月更文挑战第25天】在现代软件设计中,可观测性是确保系统稳定性和效率的关键因素。它主要由日志、指标及链路追踪(统称LMx)三大核心组件构成。本文详细介绍了构建高效可观测性框架的六个步骤:需求分析、工具选择、数据收集策略设计、实施集成、数据可视化及持续优化。并通过一个Spring Boot应用集成Prometheus和Micrometer收集指标的示例,展示了具体实践方法。合理构建可观测性框架能显著提升团队对软件系统的管理和监控能力,进而增强系统整体性能和可靠性。
66 2
|
2月前
|
分布式计算 数据安全/隐私保护
高通量计算框架HTCondor(三)——使用命令
高通量计算框架HTCondor(三)——使用命令
43 0
|
2月前
|
分布式计算 负载均衡 数据处理
高通量计算框架HTCondor(四)——案例准备
高通量计算框架HTCondor(四)——案例准备
35 0
|
2月前
|
分布式计算 负载均衡 Hadoop
高通量计算框架HTCondor(一)——概述
高通量计算框架HTCondor(一)——概述
77 0
|
5月前
|
机器学习/深度学习 存储 算法
大规模 MLOps 工程(四)(3)
大规模 MLOps 工程(四)
42 1
|
5月前
|
机器学习/深度学习 PyTorch API
大规模 MLOps 工程(四)(1)
大规模 MLOps 工程(四)
40 1
|
5月前
|
机器学习/深度学习 存储 PyTorch
大规模 MLOps 工程(二)(4)
大规模 MLOps 工程(二)
50 0
|
5月前
|
机器学习/深度学习 PyTorch API
大规模 MLOps 工程(三)(5)
大规模 MLOps 工程(三)
57 0
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
大规模 MLOps 工程(三)(1)
大规模 MLOps 工程(三)
35 0