吭哧吭哧写了半天脚本,在LSF或者Slurm上提交了作业脚本,等了半天,作业运行失败……
HPC高性能计算场景下的这些调度工具易用是易用,但过程总是不可控,除了提交脚本和等待结果之外,作业运行过程就像一个黑盒,只能等收到“运行失败”的结论之后才能去扒代码,查原因。
是时候,打破这个困局了!
MMCloud提出一个理念:运行时调度 Run- time Scheduling,专注于在任务运行时进行智能资源调度,以实现资源的最大化利用和成本效益的优化。
与传统的调度工具只关注任务的开始和结果相比,MMCloud能够在任务运行全程实时监控任务运行状态,并根据任务所需算力变化动态调整资源分配。