lsf、slurm等任务调度软件,是否支持以下的调度情况

我们软件在非lsf、slurm等调度软件的环境中,在运行时会用到一批服务器,比如100台,每四台一组,每一组的这四台服务器之间通过定义好的端口进行tcp通信。

问题:

1. 是否可以将以上的场景用lsf、slurm这样的调度软件进行调度,比如是否可以实现,四台服务器通过调度软件来进行组合?或者有没有其他更好的方案来最大化的利用服务器资源?

2.加入某一个节点出错其他节点是否还会继续运行,如果修正错误后,是否可以不用全部从头再来跑一次?

3.通过调度软件按照四台一组的方式进行组合之后,每一个组都有自己的任务,在调度的过程中会不会把不属于当前组的任务给调度过来?

回答

LSF可以的