Modulo di richiesta accesso al cluster

EOS è il cluster di calcolo ad alte prestazioni (HPC) dell’Università di Pavia, installato presso i locali del Servizio Gestione Infrastrutture Tecnologiche UniPV.

 

HARDWARE

2 nodi di login in alta affidabilità raggiungibili tramite l’host pubblico
eos.unipv.it

7 nodi work (wn01-wn07)
128GB DDR4
2 x Xeon 16-Core 6130 2,1Ghz 22MB
1 x Mellanox CX5 VPI SinglePort EDR IB 100Gb/s x16

9 nodi fat
768GB DDR4
7 (fn01-fn07)con
2 x Xeon 16-Core 6130 2,1Ghz 22MB
1 x Mellanox CX5 VPI SinglePort EDR IB 100Gb/s x16
2 (fn08,fn09)con
2 x Xeon 16-Core 6226R 2.9Ghz 22MB
1 x Mellanox CX-6 VPI Single-Port QSFP56 100Gb/s x16

7 nodi gpu (gn01-gn07)
128GB DDR4
2 x Xeon 16-Core 6130 2,1Ghz 22MB
1 x Mellanox CX5 VPI SinglePort EDR IB 100Gb/s x16
2 x NVIDIA Tesla V100 32GB HBM2

3 nodi di storage + 2 nodi di login con metadata per un totale di
192TB disponibili per le home in ridondanza
oppure
400TB per le cartelle condivise in stripe pattern

I nodi sono collegati da una rete Infiniband e Sistema Operativo Rocky Linux release 8.7 (Green Obsidian).

È disponibile per la comunità scientifica dell’Ateneo e risponde alle esigenze di calcolo ad alte prestazioni, calcolo parallelo, big data e data science. I nodi GPU sono di particolare interesse per progetti di modellistica matematica, simulazioni numeriche, applicazioni di machine learning ed intelligenza artificiale.

 

Guida HPC
Introduzione a unix

 

Risrose dei nodi
NODES CPUS MEMORY GRES
wn[01-07] 32 125000 (null)

NODES CPUS MEMORY GRES
fn[01-09] 32 762000 (null)

NODES CPUS MEMORY GRES
gn[01-07] 32 125000 gpu:tesla;2

Code
high-wn: dedicata ai nodi WORKER wn[01-03] per job ad alta priorità. Time limit 1 ora
low-wn: dedicate ai nodi WORKER wn[01-07] per job a bassa priorità. Time limit 3 giorni

high-fn: dedicata ai nodi FAT fn[01-03] per job ad alta priorità. Time limit 1 ora
low-fn: dedicate ai nodi FAT fn[01-07] per job a bassa priorità. Time limit 3 giorni

high-gn: dedicata ai nodi GPU gn[01-03] per job ad alta priorità. Time limit 1 ora
low-gn: dedicate ai nodi GPU gn[01-07] per job a bassa priorità. Time limit 3 giorni

ulow: dedicata a tutti i nodi computazionali per i job a più bassa priorità. Time limit 14 days

Criterio di occupazione nodi:

wn[04-07] > fn[05-09] > gn[04-07] > wnm[01-03] > fn[01-04] > gn[01-03]

Questo criterio ha lo scopo di lasciare liberi quanto più possibile i nodi computazionali dedicati alle code high-*, in modo che queste risorse siano
disponibili per la schedulazione dei job a più alta priorità.

Ulteriori regole:

code low-gn e high-gn: sono accettati job solamente se si richiede almeno 1 GPU con l’opzione –gres
code low-fn e high-fn: sono accettati job solamente se si richiedono almeno 200GB di RAM con l’opzione –mem
coda ulow: sono accettati job che richiedano non più di 28 core e 200GB di RAM per nodo e nessuna GPU

Priorità (con pesi diversi)
Si avvantaggiano i job che scelgono una partizione HIGH, poi LOW, e poi la ulow.
Si avvantaggiano i job di utenti che hanno utilizzato meno le risorse del cluster nella settimana passata (3 giorni si dimezza)
Si avvantaggiano i job che attendono da più tempo
Si avvantaggiano i job che richiedono poche risorse

Finanziamenti

EOS è stato principalmente finanziato dal Progetto di Eccellenza del Dipartimento di Matematica e dal fondo PASS UniPV, con ulteriori contributi di sei Dipartimenti dell’Ateneo e dell’Istituto IMATI – CNR.