高通量计算框架HTCondor(三)——使用命令

简介: 高通量计算框架HTCondor(三)——使用命令

高通量计算框架HTCondor(三)——使用命令

目录

1. 目录

HTCondor环境配置完成后,安装文件目录如下:

其中bin目录里面存放了一系列condor_开头的可执行程序,正是通过这些指令程序来实现分布式计算的。其中有个GUI程序condor_birdwatcher.exe,打开后运行界面如下:

从程序名称可以看出这是个查看器程序,分别显示condor_q与condor_status的输出信息。

execute目录是程序执行目录,当集群运行时,会把程序、数据等发送到该目录中运行。

condor_config是HTCondor的配置文件,也就是上一章配置的环境都保存在这个文件中。一些更加高级的功能,可以通过修改这个配置文件来实现。

2. 进程

HTCondor环境配置完成后,服务项会启动一个condor服务:

默认这个服务是延迟启动的,一旦启动就会运行一系列condor_开头的后台进程:

这些后台进程的具体功能可以参考HTCondor的文档。其中,发送的计算任务程序会进一步封装成condor_exec,在任务机器运行。

3. 命令

HTCondor可以在命令提示符中运行一系列condor_开头的命令(与bin目录中的可执行程序对应),其中最重要的命令有以下几个:

3.1. condor_q

显示的是当前任务队列中任务的运行情况:

此时由于没有提交任务,所以显示为空。

3.2. condor_status

显示的是当前计算机集群中计算资源的情况:

可以看到这里连接了两台机器,DESKTOP-OVH是一台12核的主机,charlee-PC是一台4核的主机,每一个CPU核心都算作一个计算资源。

3.3. conodr_submit

提交任务命令。HTCondor通过一个任务描述文件来提交任务,提交后会返回一个任务ID。具体的命令为:

conodr_submit 任务描述文件路径

第一次提交任务时,一般会有如下提示:

这时可以通过以下命令,并输入本机密码,将证书添加到HTCondor的证书管理中心中即可:

3.4. conodr_rm

通过任务ID,删除特定的任务:

conodr_rm 任务ID

一般来说,通过以上简单的命令,就可以完成初步的分布式计算。

4. 相关

上一篇

目录

下一篇

分类: 分布式计算

标签: 集群计算 , 分布式计算 , HTCondor

相关文章
|
4月前
|
人工智能 弹性计算 PyTorch
【Hello AI】神行工具包(DeepGPU)-GPU计算服务增强工具集合
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力
129582 3
|
1月前
|
分布式计算 Linux 调度
高通量计算框架HTCondor(二)——环境配置
高通量计算框架HTCondor(二)——环境配置
38 1
|
7天前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
29 4
|
1月前
|
分布式计算 负载均衡 数据处理
高通量计算框架HTCondor(四)——案例准备
高通量计算框架HTCondor(四)——案例准备
22 0
|
1月前
|
分布式计算 负载均衡 Hadoop
高通量计算框架HTCondor(一)——概述
高通量计算框架HTCondor(一)——概述
48 0
|
1月前
|
分布式计算 负载均衡 安全
高通量计算框架HTCondor(六)——拾遗
高通量计算框架HTCondor(六)——拾遗
13 0
|
1月前
|
分布式计算 Windows
高通量计算框架HTCondor(五)——分布计算
高通量计算框架HTCondor(五)——分布计算
27 0
|
4月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与优化路径
【5月更文挑战第28天】 在数据驱动的时代,机器学习模型的效能已成为衡量技术创新的重要指标。本文旨在探讨如何通过策略性的方法构建高效的机器学习模型,并详细阐述优化过程的关键步骤。文章首先对当前机器学习领域面临的挑战进行分析,随后提出一系列切实可行的模型构建和优化策略,包括数据预处理的重要性、特征工程的核心地位、算法选择的多样性以及超参数调优的必要性。通过对这些策略的深入讨论,本文为读者提供了一套系统的方法论,以期达到提高模型性能和泛化能力的目的。
|
4月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。